k47.cz

twitter RSS
««« »»»

Plazit se internetem

17. 3. 2019 — k47

Kolik je na internetu .cz domén? Na to není úplně lehké získat odpověď. Člověk se musí stát registrátorem a spřáhnout se CZ.NIC, aby mohl dostat přesnou odpověď. Pro nás smrtelníky zbývají jen odhady.

Výše nastíněnou otázku jsem si položil někdy v průběhu dne a internet nabízel jem seznamy domén výměnou za tvrdou měnu, nic zadarmo. Šlo o otázku, která nemá žádný smysl, nic z ní nevzejde a nijak nepomůže lidstvu, jako jedna scéna ve filmu Primer: „And with no need for it, no possible real-world application, no advantage at all to be gained from it, the idea stayed“.

Zeptal jsem se twitteru, odpověď se nedostavila. Tedy dostavila se až o chvíli později. Mezitím jsem stihl objevit projekt Common Crawl, který pravidelně prochází velkou část internetu (anglicky se tomu říká crawl, v překladu plazení, to jen abych vysvětlil nadpis) a připravuje ji (zcela zdarma) ke stažení. Napadlo mě, že bych mohl celý internet stáhnout a vytahat z něj české domény. Proč ne? Poslední várka má pouhých 60TB komprimovaných dat. wget přesměruji do gunzipu, ten do grepu a výsledek vyklopím do souboru. Stačí si jen počkat 139 dnů.

Ale než jsem to stačil rozjet ve velkém a rozdrásat nervy místnímu ISP, ozvali se ochotní lidé z twitteru & nasměrovali mě na seznam Michala Špačka, který obsahoval 1.6M českých domén.

Takže jich bude asi mega a půl. Otázka zodpovězena.

Ale v tom okamžiku mi na notebooku už běžel curl -I na milion celých šest domén, abych zjistil, co se na nich nachází. Zatím skript nedoběhl, ale vypadá to, že přibližně 40% domén je nefunkčních a nemá DNS záznam, 25000 jich jede na českém Nette frameworku (ten poháněl i k47čku dokud nedošlo k přepnutí na asciiblog) a 60 domén vrací hlavičku X-Powered-By: Chuck Norris.

Nevím, co budu s touto informací dál dělat. Možná bych mohl najít všechny české blogy a vytvořit něco jako devblogy, jen pro blogy obecně, abych (aspoň nějak) posílil otevřený web mimo hranice industriální farmy facebooku.

Možná.


Nicméně #1: Common Crawl prochází web každý měsíc, takže pokud neděláte zálohy svého webu, ani se nemusíte snažit. Když je aspoň trochu populární, skončí v archivech CC. Ten stahuje všechny stránky, které jsou vzdálené na pět odkazů ze seznamu 50 milionů nejpopulárnějších webů. Všechny stránky k47čky jsou dostupné na tři kliknutí z indexu, takže jsem pokrytý.

Nicméně #2: myspace omylem smazal 50 milionů empétrojek od 14 milionů autorů nahraných během prvních 12 letech existence. Cynik může namítat, že nešlo o úplný omyl a gooni z myspace se jen nestarali. Nestálo jim za to migrovat fůru starých mp3 souborů. Kolik by to zabralo místa? 5MB na jednu empétřojku? 250 TB? 32 8TB disků? Cena 280 tisíc korun z czc.cz? Tak malou pro ně má cenu snažení 14 milionů kreativních duší. Až se youtube a další weby dneška dostanou do úzkých, není důvod nevěřit, že se situace bude opakovat a google hodí přes palubu tvorbu těch, na jejichž zádech se vezl.

píše k47 & hosté, ascii@k47.cz