Najdi to, co mám na mysli, nikoliv to, co jsem zadal (Chris Sherman)

Autoři:

Vydání:

2010, ročník 14, číslo 5/2 [2]

Rubrika:

Chris Sherman

Chris Sherman, editor serveru SearchEngineLand.com, vystoupil s příspěvkem "Najdi to, co mám na mysli, nikoliv to, co jsem zadal" (Find What I Mean, Not What I Type). Podle Ch. Shermana je sémantické vyhledávání svatým grálem oblasti vyhledávání. V dnešní době vyhledávání probíhá podobně jako hraní na automatech - zadáme několik klíčových slov a čekáme, co se stane. Ve skutečnosti chceme, aby vyhledávač vzal lupu a podíval se do naší hlavy, aby zjistil, co opravdu chceme najít.

Existují tři hlavní kategorie vyhledávání - navigační vyhledávání (navigational search), transakční vyhledávání (transactional search) a informativní vyhledávání (informational search). Vyhledávání vždy vychází z informační potřeby. Dnešní vyhledávání (na příkladu Googlu) je založeno na klíčových slovech, odkazech na stránku, aktuálnosti obsahu atd. - celkem je používáno přes 300 faktorů pro řazení výsledků. Současné vyhledávací algoritmy využívají porovnání vzorců textu, statistiku a pozorování chování uživatelů.

Sémantické vyhledávání lze podle Ch. Shermana definovat jako vyhledávání zaměřené na získání odpovědí, ne výsledků vyhledávání. Klíčem je rozlišení různého významu (disambiguation) jak dotazů, tak obsahu na webu. Sémantické vyhledávání používá sémantickou síť k mapování významů a vztahů slov. Budování přesných sémantických sítí je časově náročné a finančné náročné. Navíc ještě nedávno byli uživatelé spokojeni se stávajícím stavem, výsledky vyhledávání byly pokládány za uspokojivé.

Ch. Sherman zdůraznil, že sémantické vyhledávání není totéž co sémantický web. Sémantický web používá metadata a Web Ontology Language, týká se webu jako takového. V řadě případů se setkáváme s tím, že jako sémantické vyhledávání je označováno rozřazování výsledků do kategorií.

Z projektů (vyhledávačů) využívajících sémantické vyhledávání přednášející věnoval pozornost systémům Powerset [4] (ten je zaměřen pouze na Wikipedii a Freebase), Hakia [5] (užitečné jsou mj. tzv. důvěryhodné stránky doporučené knihovníky), True Knowledge [6] (tento vyhledávač je podle přednášejícího velmi pokročilý), Kngine [7] (v současné době je založen na využití Freebase), Transinsight [8], DeepDyve [9], Cognition [10], Duckduckgo [11] či SenseBot [12]. Ch. Sherman se následně zaměřil na vyhledávač Wolfram Alpha [13].

Sémantické vyhledávání bude podle přednášejícího nejprve zahrnuto do existujících technologií. Google zatím nenabízí opravdové sémantické vyhledávání, je to spíše hrubá síla aplikovaná na rozsáhlou sadu dat. V závěru Ch. Sherman uvedl, že sémantické vyhledávání vylepší, ale nenahradí tradiční webové vyhledávání. V diskuzi mj. zaznělo, že sémantické vyhledávání učiní obtížnější optimalizaci pro vyhledávače, dále bylo zmíněno, že sémantické vyhledávání je zatím omezeno na konkrétní oblasti (např. medicína, statistika apod.), tj. na konkrétní kontext.

Rádio LibRa [14]: Rozhovor s Chrisem Shermanem [15] (tb+jn).

(lj)

Hodnocení: