Příliš mnoho informací

Poslední dobou plavu v moři sémantického webu. A ztrácím se v něm.
(Telegraficky: sémantický web je jakýsi další level těch našich internetů. V současnosti je to jenom hromada stránek s textem, sémantický web má za cíl do toho všeho nějak zakomponovat význam informací, aby se daly snadno strojově zpracovávat).
Ze začátku mi připadalo, že je zdrojů informací málo a nedá se tam nic najít, ale postupem času jsem zjišťoval, že síť zdrojů sémantických dat, je velice masivní. A najednou se na mě vysypalo příliš mnoho informací rozesetých na příliš mnoha místech. A k tomu si připočtěte všechny ty technologie jako RDF, SPARQL, ontologie, FOAF, OWL, SKOS, YAGO atakdále, atakdále. O zábavu na dlouhé zimní večery je postaráno.
Když to tady takhle napíšu, řeknete si „nějaký informace někde na internetech, no a co?“ Teprve, když člověk vidí všechna ta data, mu docházejí neskutečné možnosti. Jenom si vezměte, že spousta webů poskytuje veřejný SPARQL endpoint a umožňuje se tak na tato sémantická data dozatovat podobně jako na relační databázi. Takže když víte kde a jak, není problém zodpovědět na libovolnou bizarní otázku jako třeba: jaké hudební skupiny pocházejí z měst z méně než třiceti tisíci obyvateli, vydali aspoň tři alba a na nějakém festivalu hráli spolu s jinou skupinou která někdy vystoupila na Rock for people. Sice bych tenhle dotaz ve SPARQLu nechtěl psát, ale šlo by to zjistit. Spolu se všemi užitečnými věcmi.
Mě samozřejmě jde o to, jak tahle data zneužít ve wyhledawaczi Ještě se nechte překvapit.
Mimochodem, během plavby v sémantických vodách jsem objevil několik zajímavých věciček. Pár příkladů:
- Project Gutenberg je relativně běžná online knihovna elektronických knih, které dobrovolníci skenují a archivují. V současné době obsahuje stále rostoucí kolekci více než 32000 dokumentů. Většina děl je sice anglicky, ale co nadělám, dětma nezatopím.
- Projekt LibriVox mi doslova vyrazil dech. Nikdy bych nepomylslel, že je něco takového možné. LibriVox je totiž archiv audio-knih vytvářených komunitou. Zkrátka sis někdo řekne: „dneska je hezky, dneska by to šlo“, sedne k mikrofonu a začne číst svojí oblíbenou knížku. Kvalita výsledných audiobooků je velice dobrá. Zase, naprostá většina věcí je anglicky, ale LibriVox se nebrání jiným jazykům.
- DBPedia a DBTune je projekty, který extrahují sémantické (tedy strojově čitelné) informace. Ten první z wikipedie, ten druhý z mnoha zdrojů o hudbě a mimojiné i Jamenda. Všechno volně přístupné našim nenechavým prackám.
PS: myšlenka ke stavu obchodních modelů zábavního průmyslu, DRM a války proti pirátství: lidé chtějí konzumovat obsah neboli informace. Nejlepší by tedy bylo, jim do cesty neklást překážky a zavést takové podmínky, aby mohli zkonzumovat všechno, co chtějí.