k47.cz
mastodon twitter RSS
bandcamp explorer
««« »»»

It's time for science. 4chan science!

29. 11. 2012 (před 10 lety) — k47 (CC by)

I když o projektu Chanminer – snahy zarchivovat celý 4chan a z výsledných dat extrahovat Čistou Krystalickou Vědu – nepíšu, stále běží a už více než rok a půl od spuštění pořád vesele archivuje.


V poslední době mi moot poněkud usnadnil scrapovací práci, když na 4chanu začal poskytovat JSON API. I když tohle rozhraní má nějaká omezení (maximálně jeden požadavek za vteřinu), tak jde o překážky čistě teoretické (už jsem vám říkal, jak jsem robotoval Reddit s pomocí 400 proxy serverů, jenom abych obešel velice podobný limit?).

Naštěstí pro moje scrapperské know-how pořád mám uplatnění, protože nearchivuji jenom matku všech chanů, ale i mnoho dalších imageboardů (420chan, 7chan, krautchan, 2chan, ponychan, nějaké polské chany, jeden ruský a ještě pár menších kousků).

Projekt už běží dost dlouho, stál mě dost úsilí, nervů a místa na disku na to, aby přinesl nějaké měřitelné výsledky. Za rok a půl by měl vytvořit tolik Vědy, že by se dala stáčet do lahví, žejo?

Ne tak docela, ale nějaké ty výsledky už přinesl.

Už dříve jsem psal o tom, jak jsem potvrdil zákaz doubles na /b/ a /v/, zjišťoval odkud jsou lidi z /int/ a z /sp/ a sestavoval seznam nejčastěji postovaných obrázků.

K této trojici teď přidávám další dvě Zcela Zásadní Vědecké Studie:

(Přiložené grafy se nesnažte rozluštit, nemůže se vám to nikdy podařit; berte je jenom jako lehce nevkusnou dekoraci.)

V následujících dnech a týdnech bych si chtěl posvítit na obrázky a jejich reposty. Je známo, že kolem 30% postů má přiložen obrázek z nichž 60% jsou reposty. Poměrně snadno by se dalo zjistit, kolik obrázků jdou přímé reposty z tumblru nebo z DeviantArtu. Kdybych do dat šťoural dostatečně dlouho, dalo by se zjistit, kolik obrázků je repostnutých z nějakého chanu a hlavně jak staré jsou jednotlivé reposty – neboli, kdy přibližně uživatel repostovaný obrázek původně uložil. Po tom bych se chtěl věnovat četnosti slov a n-gramů v průběhu času. Z toho by se daly (možná) zjistit nějaké (možná) zajímavé trendy (možná).

Oba nové Zcela Zásadní Vědecké Články jsem napsal englicky. Je to jednak proto, že budou hlavně zajímat cizojazyčné publikum a také proto, že čeština jednoduše postrádá slova, která by dokázala popsat kulturu chanů (a české překlady vždycky zní divně a nepatřičně). A dlouho před publikací tady na k47čce jsem je zveřejnil na /r9k/ zaštiťující se identitou Institute for pointless internet studies (archivovaná vlákna jsou tadytady) /r9k/ proto, že 4chan nemá nějaký meta board a robot se zdál jako místo pro obecnou diskuzi, kde se moje vlákno neztratí v propadlišti dějin do deseti minut.

píše k47, ascii@k47.cz