Aprendo estonio por mi cuenta. Por ahora uso un par de libros tradicionales que menciono en la página de asuntos lingüísticos y algunas grabaciones, vídeos de Youtube y la radio estonia.

Aparte de eso, he comenzado a analizar con scripts la Wikipedia estonia para ver cómo me puede ayudar a optimizar el aprendizaje de este idioma no indoeuropeo.

En primer lugar, he bajado un dump y he usado una biblioteca de Python (wiki_dump_reader) para extraer los textos de los primeros 40000 artículos que hallé. A continuación, hice que el programa contase las palabnras.

Abajo podéis ver los primeros 500 tokens con la frequencia absoluta. Tened en cuenta que muchos de esos tokens no corresponden a palabras que pertenezcan al vocabulario normal. Son vocabulario "de Wikipedia".

Aun no he realizado ninguna reducción de las raíces: se presentan las formas tal cuales. También he generado un modelo de word embedding con la biblioteca gensim. Con eso espero producir información más interesante. Por ahora un par de ejemplos: si uso el modelo word2vec con las palabras "rääkima" y "keelt" (habla + idioma), obtengo palabras como lugema (leer), tundma (conocer) y sõnu (palabra) mientras que "keelt" solo dan otras formas de keel, idioma: keeli, keelele, keeleks, keele... aparte de laensõnu, palabra préstamo.

El siguiente paso es generar colocaciones realmente útiles para temas particulares y algún programa que permita la memorización de manera más efectiva de lo que veo en las aplicaciones que he visto por allí.


ja 307123
on 223493
eesti 87277
oli 83248
ta 72936
ka 59374
aastal 58525
ning 56049
mis 42315
et 40497
kui 38004
ei 35476
aasta 35337
oma 29025
või 27500
tema 26082
see 24170
sai 21289
selle 19362
kuid 18535
kes 18290
sündinud 17770
tartu 17239
pärast 16592
mille 16533
küla 16282
aastad 16139
vald 16034
kus 14931
seda 14732
kuni 14461
aga 14184
saksa 13791
olid 13570
välja 13391
vaata 13238
keeles 13059
von 12992
nii 12547
üle 12089
tallinna 11885
vene 11423
nende 11146
aastatel 11028
ajal 10987
üks 10979
ameerika 10861
august 10707
vastu 10407
mida 10352
võib 10120
välislingid 10068
järgi 10033
alates 10008
näiteks 9843
koos 9820
osa 9811
asub 9811
venemaa 9799
aastast 9731
valla 9507
vallas 9407
siis 9287
nad 9235
euroopa 9131
esimene 9087
surnud 9071

eestis 8800
linn 8706
rootsi 8705
liidu 8617
hiljem 8541
linna 8302
inglise 8063
kaks 8028
soome 7896
enne 7754
lääne 7712
poolt 7689
olnud 7655
maakonnas 7640
eest 7639
ülikooli 7596
nõukogude 7555
kohta 7523
umbes 7513
juba 7322
vaid 7291
kõige 7244
jaanuar 7239
tallinn 7231
vahel 7154
põhja 7133
maakond 7072
all 7036
veebruar 6949
tee 6907
samuti 6848
nr 6818
riigi 6611
järv 6577
veel 6576
poliitik 6571
align 6567
juuli 6544
a 6523
oktoober 6505
nime 6493
nagu 6479
aprill 6471
mai 6448
väga 6432
kõik 6428
ole 6421
kuulus 6366
sajandi 6357
saksamaa 6346
märts 6223
sest 6195
seal 6134
juuni 6056
prantsuse 6042
saab 5979
kuningas 5893
viited 5880
september 5849
tagasi 5833
läbi 5831
aastat 5803
detsember 5792
itaalia 5765
kogu 5764
rooma 5758
iii 5739
teda 5737
maakonna 5709
alla 5671
tõttu 5662
lõuna 5636
olla 5628
november 5622
kokku 5596
korda 5510
ainult 5496
suur 5484
kuna 5417
lipp 5405
neid 5324
kirjanik 5315
vabariigi 5270
uus 5219
sellest 5215
sajand 5192
külad 5120
poola 5109
võitis 5100
esimese 4981
koht 4965
teine 4948
ühendriikide 4936
vana 4920
asus 4910
jäi 4906
pole 4885
mitte 4872
president 4855
tuli 4853
palju 4850
nimi 4848
prantsusmaa 4810
näitleja 4808
saare 4786
maailma 4761
koduleht 4756
liige 4747
maa 4715
ühe 4687
keel 4682
toimus 4665
kasutatakse 4648
isa 4588
kolm 4577
teise 4577
jõgi 4555
ida 4521
jõe 4490
suri 4487
kirik 4471
saanud 4452
pärnu 4388
sajandil 4342
peale 4249
lisaks 4219
loend 4197
hakkas 4048
andis 4028
elu 4019
taani 4014
tuntud 4006
külas 3981
valiti 3963
inimest 3952
tal 3949
tõlkinud 3939
suure 3936
aastani 3929
tallinnas 3926
ajalugu 3925
lõpetas 3907
nimetatakse 3906
kuigi 3893
siiski 3865
kas 3841
poeg 3824
sündis 3793
tavaliselt 3779
väike 3769
seejärel 3761
jaan 3747
töötas 3746
samal 3741
peamiselt 3731
juures 3693
uue 3674
hispaania 3657
endine 3650
suurbritannia 3649
neist 3648
ära 3634
võttis 3630
enam 3627
teiste 3600
rohkem 3592
talle 3584
võru 3555
paul 3540
kuulub 3538
liikmed 3533
järel 3525
jooksul 3525
juunil 3508
sama 3484
läti 3473
ümber 3464
partei 3460
ise 3460
viru 3458
saar 3441
puhul 3435
mõisa 3417
läks 3416
surma 3404
eriti 3391
linnad 3372
kreeka 3367
keskus 3365
millest 3362
sündmused 3320
iga 3318
briti 3299
leedu 3293
austria 3287
varem 3286
norra 3285
seotud 3283
isbn 3279
osales 3272
valda 3272
omavalitsuste 3266
kiriku 3254
laulja 3243
korral 3221
linnas 3220
tegi 3217
juulil 3187
mõis 3176
riik 3173
moskva 3170
septembril 3168
kahe 3158
narva 3153
jaanuaril 3149
võimalik 3148
õppis 3145
peab 3143
tuleb 3137
märtsil 3124
riigikogu 3092
kelle 3084
poole 3055
pool 3054
hiina 3050
päritolu 3044
püha 3034
veebruaril 3020
edasi 3018
pilt 3009
vapp 3000
viljandi 2984
aleksander 2983
augustil 2977
saaremaa 2973
ordu 2965
elas 2958
toimunud 2955
ilmus 2950
raamat 2948
selles 2939
ema 2934
oja 2934
kaudu 2933
suurim 2930
juurde 2926
milles 2924
tänapäeval 2923
mail 2916
viis 2880
käigus 2858
inimesed 2858
jaoks 2853
center 2851
klassi 2848
sellele 2845
ma 2834
lähedal 2830
esimest 2827
detsembril 2825
eestimaa 2823
arv 2803
harju 2791
alustas 2786
aprillil 2783
oleks 2781
valitsuse 2774
jüri 2768
alguses 2766
oktoobril 2766
võeti 2753
nimetati 2751
ega 2749
end 2740
jaapani 2736
liivimaa 2733
valitsus 2727
maailmas 2704
novembril 2698
ülikoolis 2697
keelest 2688
enda 2683
sageli 2678
ette 2672
di 2668
sõna 2668
alles 2666
saksamaal 2664
järve 2654
kirjandus 2650
viimane 2646
esimees 2646
pidi 2629
aja 2628
inimese 2627
sel 2623
said 2604
ungari 2597
tänav 2590
samas 2589
seetõttu 2582
ees 2578
anti 2572
algas 2571
sellega 2570
neil 2550
keele 2537
sõja 2530
hulka 2529
mitu 2524
kaasa 2522
enamasti 2522
seas 2515
peeter 2506
abiellus 2495
võivad 2494
robert 2483
jääb 2481
maria 2478
kuninga 2469
selleks 2466
võimu 2462
finaal 2455
haldusreformi 2447
sõda 2435
mil 2434
nõukogu 2427
tähendab 2426
ilma 2426
valmis 2420
nikolai 2420
valge 2417
jalgpallur 2414
aega 2410
peetakse 2407
keiser 2406
ääres 2398
seega 2397
kohaselt 2397
cm 2395
kohal 2368
suurem 2365
lipu 2360
esimesed 2349
abil 2339
me 2339
paavst 2331
üles 2331
mõned 2326
riia 2323
austraalia 2318
taas 2318
millega 2313
postimees 2306
asutati 2305
teada 2296
koha 2289
meetrit 2283
maha 2280
ukraina 2275
liit 2260
seltsi 2260
venemaal 2260
aafrika 2246
hollandi 2243
sealhulgas 2242
wilhelm 2237
helilooja 2226
akadeemia 2224
meie 2217
astus 2214
koosneb 2213
asuvad 2202
le 2198
pärit 2198
kuuluvad 2177
teised 2176
moodustati 2169
inglismaa 2168
jõudis 2160
neli 2159
väed 2157
avati 2150
georg 2150
vastavalt 2143
otto 2141
ala 2131
isegi 2128
olevat 2114
ametlik 2113
liivi 2105
maailmameister 2099
lõpuks 2098
pindala 2097
päeva 2091
liiga 2084
kasutada 2079
kirjutas 2078
küll 2075
suhtes 2075
anna 2071
mängis 2070
vähemalt 2069
aastate 2061
sõjaväelane 2058
charles 2054
kooli 2050
saada 2048
tartus 2045
aeg 2037
olema 2036
hakati 2036
tütar 2034
kolme 2033
andmetel 2032
antud 2032
und 2031
teha 2027
peaminister 2025
lõpus 2021
riikliku 2007
toimusid 2004
saared 2003
paljud 2002
ehitati 1998
george 1998
abikaasa 1986
eduard 1971
armee 1967
eri 1965
hans 1961
kuidas 1956
koosseisu 1943
algul 1936
maailmasõja 1930
kanada 1924
suuna 1920
rapla 1918
kunstnik 1917
lõi 1910