Vyhledávání multimediálního obsahu na Internetu (Michal Krsek, Michal Illich, Ivan Doležal)
Michal Krsek prezentoval výsledky projektu, který vznikl ve spolupráci CESNETu, Ústavu informačních studií a knihovnictví FF UK a firmy Jyxo.
V obecném úvodu uvedl, že elektronická média byla dlouho organizovaná v kanálech či programech, které plynou a lze je jen přepnout či vypnout, tj. demokracie při šíření byla nulová a vše bylo diktováno programem stanic. S rozvojem internetu došlo k razantním změnám, zejména prostřednictvím IPTV ("video on demand") - ale navigace je stále realizována pomocí webových stránek. Možnosti vyhledávání jsou ale ve skutečnosti širší a spočívají např. v rozpoznávání hlasu a videa.
V této oblasti ovšem stále leží řada bariér, jako je rozpoznání jazyka, akcent, nemluvené zvuky (u audia), problémy interpretace dotazu, jeho převod z textové na "obrazovou formu dotazu" a nízká kvalita videa na internetu.
Indexování odkazů na video s sebou nese problém zachování a pravdivosti takového popisu, stejně jako všech "vnějších metadat". Rozdílná jsou jen metadata "vnitřní", uložená v postprodukci přímo do souboru.
Prezentovaný projekt, který byl zahájen v roce 2003, musel začít bez podpory vlastníků obsahu a soustředil se jen na doménu .cz. Skládá se z crawleru, která prochází web a vyhledává multimediální soubory, destilleru, který importuje adresy, získává metadata a vytváří náhledy, a databáze, přičemž pro vyhledávání je používán software od firmy Jyxo.
Databáze v současné době pokrývá v několika desítkách vrcholových domén přes 3 miliony adres, z toho 2 miliony validních a 600 000 s náhledy. Další vývoj projektu se vztahuje ke snahám pokrýt další vrcholové domény (určitě ty, které jsou v EU) a podpoře dalších jazyků, stejně jako detekci duplicit a implementaci knihovnického přístupu ve spolupráci s vydavateli obsahu pomocí metod OAI (Open Archive Initiative).
Projekt je možné vyzkoušet na adrese multimedia.jyxo.cz .
(text přednášky)
(JaS)