k47.cz
mastodon twitter RSS
bandcamp explorer

wyhledawacz

13. 10. 2008 (před 14 lety) — k47 (CC by-nc-sa)

Wyhledawacz je meta-vyhledávač, který čerpá data z vyhledávačů specializovaných file hostingových služeb a upload serverů. Pomocí Wyhledawacze můžete hledat soubory na mnoha místech najednou.


Wyhledawacz vznikl – stejně jako jiné projekty – z nouze.

Postupem času jsem si psal seznamy souborů, které jsem chtěl najít a stáhnout (neříkám, že to byly hromady alb, protože pak by to vypadalo jako že jsem pirát a to já nejsem). Ale bylo to problematické, protože jsem musel hledat jeden soubor po druhém. Potřeboval jsem nějaký nástroj, který by dokázal vyhledávat hromadně a na mnoha místech najednou, na mnoha serverch, na Rapidshare, Megauploadu, Ulozto a na dalších místech. Původní myšlenka byla taková, že tomu předhodím strukturovaný seznam položek a řeknu hledej. Wyhledawacz pak proleze všechny kouty internetu, vytahá z nich data a ty naservíruje: tady to je – všechno.

Plánoval jsem, že takto by se daly výborně stahovat celé diskografie – stačilo by předhodit seznam všech alb jednoho interpreta, nebo celé seriály v jejichž jménech se mění jenom číslo dílu nebo série (nemá smysl si nic nalhávat, hledaný obsah na inkriminovaných serverech je z 99% chráněný autorským zákonem). Všechno tohle hromadné hledání a stahování je v podstatě jednoduchý úkol, k jehož řešení však nejsou na internetu dostupné prostředky (možná pomocí P2P se to dá řešit líp, ale znáte to: stahovat můžeš, sdílet už ne). To byly předpoklady pro vznik wyhledawacze: hledej několik věcí na několika místech najednou.

Pak jsem přemýšlel, co dál, až tohle všechno bude. Aby se z wyhledawacze stala regulérní web 2.0 služba, byl by krásný export dat v XML nebo JSONu. Konec konců moje data to nejsou, i já je kradu od vedle. Bylo by to pěkné, ale svět se bez exportů nepřestane točit.

Začal jsem dumat nad tím co udělat dál, aby se wyhledawacz změnil na zbraň hromadného ničení, která dokáže rychleji porušovat autorská práva než cokoli co tu bylo dosud (přičemž sám wyhledawacz nic neporuší, protože jenom nabízí, kde se data dají stáhnout a sám nemá žádnou databázi nelegálních dat, ani odkazů na ně)?

Pak mě napadla jedna věc.

Vezměte i příklad, že si chci sáhnout nějaká alba od nějakého interpeta, takže nejdřív musím najít jaká alba interpret vydal a pak teprve je začít hledat. Právě tuto smyčku, která zdržuje, by to chtělo zatáhnout. Ale jak?

V poslední době dělá web nesmělé krůčky na cestě k sémantickému webu, kde data nejsou jenom hromady písmen, ale jde z nich vyčíst, jaký je jejich význam, což má kardinální význam při strojovému zpracovávání. Wyhledawacz sám vysekává logickou informaci z HTML smetí pomocí regulárních výrazů ušitých na míru každému vyhledávači a právě export výsledků v XML nebo JSONu by bylo to zesémantičtění. Zdroje sémantických dat by se tedy daly využít pro naši věc.

Spoluviníkem velkého plánu se stane sémantická encyklopedie Freebase, která by se dala popsat jako sémantická Wikipedie. Data v ní obsažená tedy nejsou jenom stránky textu, ale jde o strukturované seznamy a položky jejichž význam je daný. A protože je sémantická, je možno se jí například zeptat na všechna alba od jednoho interpreta a ona je vrátí ve strojově čitelné formě, která se v budoucnu předhodí wyhledawaczi a ten je vyhledá. Smyčka zatažena, vyhledávání urychleno.

Avšak možnosti zneužití sémantických dat jsou mnohem větší, daly by se takto vyhledat všechna alba určitého žánru za poslední měsíc, všechny filmy, kde hrál nějaký herec, všechny britské sitcomy natočené do roku 2001. Možnosti jsou neuvěřitelné, ale způsob je pořád stejně jednoduchý: freebase poskytne moře dat, které se wyhledawacz pokusí najít na velkém množství serverů.

Ještě něco, co by lámalo captcha a wyhledawacz by se stal postrachem.


Poznámky pod čarou. Napadlo mě jak ještě víc zneužít sémantická data z Freebase a vytvořit něco doopravdy velkého – (skoro) automatický stahovací systém, takovou malou pirátskou sociální síť. Nebudu zatím nic prozrazovat, ale plány jsou velké a ještě nabírají na konkrétní podobě. Tuhle věc v budoucnu poskytnu uživatelům, kteří mi na bibli odpřísáhnou, že to nepoužijí na žádné pirátské neplechy, protože tahle věc už bude značně na hraně a já bych se velice nerad dostal do křížku se zákonem. Zůstaňte na příjmu, ještě se budou dít věci!

píše k47, ascii@k47.cz