k47.cz

twitter RSS
««« »»»

Pierre Menard ex machina

19. 5. 2021 — k47

Ok, tohle je zajímavé. A nejen proto, že to má další spojení s dílem jistého Jorge Luise Begese.

AI jazykové modely, specificky GPT2 a GPT3, které v poslední době dokázaly šokovat svou schopností generovat koherentní text k nerozeznání od toho, co vlezlo z klávesnice živého člověka, memorují rozsáhlé pasáže ze vstupních dat prakticky verbatim.

Zásadními způsoby se to dotýká otázek soukromí a copyrightu. Pokud je takový model použit pro napovídání při psaní, není úplně nepředstavitelné, že s trochou pobízení, vyzradí přesnou adresu, telefonní číslo a email právě napsaného jména a naruší tak očekávaný kontext použití. V nekonečné spleti vah a spojení neuronové sítě se ta data někde mohou nacházet. Nikdo to tak explicitně nenaprogramoval, ale v chaotickém procesu strojového učení se to tak stalo. Proč? Možná to byla jen užitečná strategie jak dostát optimalizačním cílům, možná to ukazuje na fakt, že paměť tvoří důležitou složku inteligence. Větší a inteligentnější modely memorují víc než ty malé.

Mě na tom zaujaly především paralely s povídkou Autor Quijota Pierre Menard z pera JLB. V ní se titulní Menard rozhodne znovu napsat Dona Quijota, nikoli však prostým kopírováním. Ponoří se do díla tak intenzivně, že je schopen slovo od slova reprodukovat, co před ním napsal sám Cervantes.

Povídka se točí kolem kontextu autorství, kdy původní autor nemá finální slovo, co text znamená. Stejný text přisouzený jinému autorovi bude mít odlišné vyznění díky změně kontextu. Proto, i když je Menardův Quijote na slovo stejný jako originál, vzhledem k tomu, že byl napsán o 300 let později, jeho význam a vyznění se liší. Přesně do těchto manévrů se sám Borges pouštěl. Vytvářel literární padělky a vydával je pod jmény ostatních autorů.

Výsledkem snažení je o stejná kniha, doslova identická a materiálně se liší jen proces, neuvěřitelně komplikovaný a ambiciózní stylem hraničící s absurditou, který k němu vedl – Menard se stane Cervantesem, neuronová síť je krmena miliardami slov textu – a co vyprodukuje, je kopie originálu.

V tom to ale právě je. Neuronová síť neuchovává data stylem ctrl-C/ctrl-V, kopírovaný text je nepřímo zakódovaný do matic vah a synapsí, síť text nekopíruje, ona se do něj vtělí a pak ho znovu vytvoří. Občasné chyby jsou toho důkazem. V tomhle se dokonale blíží povídce, uvnitř sebe nemá přesný text, ale jeho komprimovanou reprezentaci, sémantiku, styl psaní a nosnou ideu, dalo by se říct. A pak v okamžiku psaní všechny naučené informace prožene matematickým aparátem, který vytvoří originál. Slovo od slova. Neuronová síť se stala zdrojovým textem, Pierre Menard realizován.

píše k47 & hosté, ascii@k47.cz