It's time for science. 4chan science!
I když o projektu Chanminer – snahy zarchivovat celý 4chan a z výsledných dat extrahovat Čistou Krystalickou Vědu – nepíšu, stále běží a už více než rok a půl od spuštění pořád vesele archivuje.
V poslední době mi moot poněkud usnadnil scrapovací práci, když na 4chanu začal poskytovat JSON API. I když tohle rozhraní má nějaká omezení (maximálně jeden požadavek za vteřinu), tak jde o překážky čistě teoretické (už jsem vám říkal, jak jsem robotoval Reddit s pomocí 400 proxy serverů, jenom abych obešel velice podobný limit?).
Naštěstí pro moje scrapperské know-how pořád mám uplatnění, protože nearchivuji jenom matku všech chanů, ale i mnoho dalších imageboardů (420chan, 7chan, krautchan, 2chan, ponychan, nějaké polské chany, jeden ruský a ještě pár menších kousků).
Projekt už běží dost dlouho, stál mě dost úsilí, nervů a místa na disku na to, aby přinesl nějaké měřitelné výsledky. Za rok a půl by měl vytvořit tolik Vědy, že by se dala stáčet do lahví, žejo?
Ne tak docela, ale nějaké ty výsledky už přinesl.
Už dříve jsem psal o tom, jak jsem potvrdil zákaz doubles na /b/ a /v/, zjišťoval odkud jsou lidi z /int/ a z /sp/ a sestavoval seznam nejčastěji postovaných obrázků.
K této trojici teď přidávám další dvě Zcela Zásadní Vědecké Studie:
- První >mfw no face zkoumá kolik postů, obsahujících >mfw (neboli my face when) skutečně obsahují obrázek a kolik jich jenom předpokládá, že si u postu sami představíme nějakou vtipnou vizuální kreaci.
- Další Vědecké Bádání pic (un)related se snaží zodpovědět jaký je poměr mezi related a unrelated obrázky.
(Přiložené grafy se nesnažte rozluštit, nemůže se vám to nikdy podařit; berte je jenom jako lehce nevkusnou dekoraci.)
V následujících dnech a týdnech bych si chtěl posvítit na obrázky a jejich reposty. Je známo, že kolem 30% postů má přiložen obrázek z nichž 60% jsou reposty. Poměrně snadno by se dalo zjistit, kolik obrázků jdou přímé reposty z tumblru nebo z DeviantArtu. Kdybych do dat šťoural dostatečně dlouho, dalo by se zjistit, kolik obrázků je repostnutých z nějakého chanu a hlavně jak staré jsou jednotlivé reposty – neboli, kdy přibližně uživatel repostovaný obrázek původně uložil. Po tom bych se chtěl věnovat četnosti slov a n-gramů v průběhu času. Z toho by se daly (možná) zjistit nějaké (možná) zajímavé trendy (možná).
Oba nové Zcela Zásadní Vědecké Články jsem napsal englicky. Je to jednak proto, že budou hlavně zajímat cizojazyčné publikum a také proto, že čeština jednoduše postrádá slova, která by dokázala popsat kulturu chanů (a české překlady vždycky zní divně a nepatřičně). A dlouho před publikací tady na k47čce jsem je zveřejnil na /r9k/ zaštiťující se identitou Institute for pointless internet studies (archivovaná vlákna jsou tady a tady) /r9k/ proto, že 4chan nemá nějaký meta board a robot se zdál jako místo pro obecnou diskuzi, kde se moje vlákno neztratí v propadlišti dějin do deseti minut.