k47.cz
mastodon twitter RSS
bandcamp explorer
««« »»»

Slovní zásoba

— k47

Nemůžu se zbavit dojmu, že moje slovní zásoba je poněkud strohá. Když píšu na k47čku, pořád a pořád dostávám pocit, že to není ono, že nemůžu najít správná slova, stále používám býtmít namísto jiných efektivnějších akčních sloves a tak podobně.

Může jít jen o pocit & odmítám propadnout trudnomyslnosti, pokud to nemám podložené čísly. Napsal jsem proto skript, který vytáhne všechny texty k47čky (přes milion slov), rozláme je na slova, ostemuje na kost a sečte počet unikátních slov použitých v daném měsíci. Výsledek? Čím víc toho napíšu, tím víc různých slov použiju.

Hmm, to se dalo čekat.

Nejde ale o jednoduchý vztah. Když napíšu 2× tolik, neznamená to 2× větší slovní repertoár, pochopitelně. Když do grafu vynesu celkový počet slov v daném měsíci na logaritmické ose x a sumu unikátních slov v ose y, vypadá to takhle:

Vypadá to, že existuje určitá rovnice, která celkem ±přesně odhadne kolik různých slov bude použito vzhledem k celkovému objemu textu. To je ta čára skrytá v moři křížků. Takhle zdálky to působí, že ±pasuje docela fajn. Teď se nabízí možnost měřit bohatost slovní zásoby vzhledem k tomuto odhadu. Nedávno padla řeč o špatné statistice, tak proč nepřidat vlastní příspěvek do tohohle žánru?

Mohlo by jít o lehce stoupavý trend. Plus mínus. Možná. Trochu. S velice přivřenýma očima. Pravda, ten propad v roce 2017 se shoduje s obzvlášť gigantickým objemem napsaného textu a to ukazuje na zásadní problém: Rovnice nefunguje na delší časové úseky a větší objemy slov. V těch případech značně nadhodnocuje odhady.

Navíc tohle nebude ta správná metrika. Bohatá slovní zásoba znamená, že běžně používám pestrou paletu slov, ne že občas vyhrabu nezvyklý termín, který se vyskytne jen jednou a pak zapomenutý. Z grafů je patrné, že průměrné slovo je v průměrném měsíci použito asi tak třikrát (průměrně). Polovina všech slov byla za 16 let k47čky použitá jen jednou. Jak se říká ve statistické hantýrce jde o long tail a moje měření nikam nevedou.


Dodatek: Heap's law

píše k47, ascii@k47.cz