Způsoby hodnocení relevance vyhledaných dokumentů ve vyhledávacích strojích

0 comments

Autoři:

Vydání:

2000, ročník 4, číslo 1 [2]

Rubrika:

Kritéria hodnocení relevance ve vyhledávacích strojích (VS) jsou tím hlavním, co ovlivňuje jejich kvalitu. Relevanci lze definovat několika způsoby. Uveďme pro představu dva. První je převzat z literatury [Pok] a platí pro klasické vyhledávací systémy (tedy i pro VS), jejichž uživateli jsou především profesionálové. Druhá definice je mou vlastní a platí především pro neprofesionální uživatele, tedy typické uživatele VS. K jejímu formulování jsem dospěl na základě zkušeností (pozorování uživatelů a toho, jak zadávají dotazy a jak pracují s výsledky) a několika analýz dotazů kladených ve VS např. [AV]

v profesionálních systémech je relevance definována jako počet relevantních dokumentů na výstupu / počet všech dokumentů na výstupu systému
pro neprofesionální systémy a především pro VS považuji za relevantní výsledek takový v němž se mezi několika prvními výsledky objeví alespoň jeden, který uspokojí uživatele (ať už tím , že ve výsledku vyhledávání bude přímo relevantní dokument nebo tím, že ve výsledku bude dokument odkazující na relevantní dokument)

Nyní se již podíváme na samotná kritéria, podle kterých vyhledávací stroje hodnotí relevanci vyhledaných dokumentů. Tato kritéria se dají rozdělit na dvě oblasti. Jednou jsou kritéria závislá pouze na vlastnostech daného dokumentu a druhou jsou kritéria nezávislá na hodnoceném dokumentu.

Kritéria

následuje seznam hodnotících kritérií spolu s jejich stručnou charakteristikou [NotAll]

Kritéria založená na vlastnostech dokumentu

frekvence výskytu hledaného slova. Čím častěji se hledané slovo vyskytuje v daném dokumentu, tím má dokument větší šanci získat lepší hodnocení. Tohoto principu lze jednoduše zneužít, proto vznikla varianta používání tohoto kritéria. VS vypočte průměrný počet výskytů daného slova v celé kolekci dokumentů a potom uvažuje pouze dokumenty ve stanoveném rozpětí od této průměrné hodnoty (extrémní hodnoty neuvažuje). Tak lze filtrovat dokumenty, které se snaží neoprávněně získat lepší hodnocení. Bohužel může dojít k tomu, že některé novotvary nebudou brány v potaz. Zároveň lze tímto způsobem částečně filtrovat překlepy.
pozice slova v dokumentu. U tohoto kritéria se hodnotí pozice slova v dokumentu. Skóre se zvětšuje čím blíže se slovo vyskytuje začátku dokumentu. Zvlášť jsou hodnocena slova v názvu. Některé VS hodnotí i to, zda se slovo vyskytuje v URL. V případě URL je zvlášť hodnoceno jméno domény nebo serveru a zvlášť cesta v rámci jednoho počítače.
existence metatagu. Některé VS zjišťují existenci metatagu a zlepšují hodnocení dokumentu, pokud se v něm hledané slovo vyskytuje. Podobně jako u zjišťování frekvence výskytu slov zde platí, že toto kritérium lze snadno zneužít. Některé VS se proti tomu brání a snižují hodnocení dokumentům, ve kterých se tento prohřešek vyskytl.

Kritéria nezávislá na dokumentu

Toto jsou kritéria, která nejsou závislá na konkrétním hodnoceném dokumentu. Určují se z celé kolekce dokumentů. Jde o jakýsi druh citační analýzy. Během vývoje VS se objevili následující implementace:

populárnost daného dokumentu: při tomto hodnocení se bere v potaz pouhý součet všech odkazů na daný dokument. Jde v podstatě o popularitu daného dokumentu. Zdá se to být dobrým kritériem, ale při hlubším zamyšlení zjistíme určité nedostatky. Jde především o to, že toto kritérium opravdu znamená pouze populárnost daného dokumentu. V žádném případě nic nevypovídá o kvalitě dokumentu. Proto použít toto kritérium pro hodnocení relevance není ideální. Pro získání dobrého hodnocení stačí pouze být populární.
citační analýza: autoři VS Google [Goo] vyšli z myšlenky citační analýzy a impact faktoru a navrhli hodnotící systém kopírující citační rejstřík. Funguje tak , že "hodnota" dokumentu je sumou hodnot dokumentů, které na daný dokument odkazují / počtem odkazů vedoucích z dokumentu. Toto hodnocení je normalizováno, takže jeho maximální hodnota může být menší než jedna. Na příkladu ukáži jak to prakticky funguje. Pokud má dokument hodnocení 0,5 a vede z něj pět odkazů pak si každý dokument na který je odkazováno z tohoto dokumentu vezme hodnocení 0,1. Pro získání vysokého hodnocení musí na daný dokument vést buď velké množství odkazů z málo významných dokumentů nebo stačí i menší množství z významných dokumentů. Takto tento systém velmi věrně kopíruje citační analýzu a je velmi málo náchylný na manipulaci. Tato strategie vede k velmi dobrým výsledkům vyhledávání. Vyniká především v dotazech na konkrétní věci. Na druhou stranu ve všeobecných dotazech nevyniká žádný VS. Pro tyto dotazy bude potřeba zahrnout do VS prvky umělé inteligence a znalostního inženýrství.

Závěr

Celkové "skóre" dokumentu je pak vypočteno jako součet jednotlivých kritérií násobených jejich váhou. Hodnota váhy pro jednotlivá kritéria se liší systém od systému. V závislosti na konstrukci vyhledávače ji autoři víceméně experimentálně určují. Do budoucna vidím možná zlepšení především v zapracování dalších metod bibliometrie a počítačové vědy např. [Aut], [Law], [Gil] a pak už nezbude jiná cesta než automatická analýza textů a automatické porozumění textům.

[AV] SILVERSTEIN, Craig, HENZINGER, Monika, MARAIS, Hannes. Analysis of a very large AltaVista query log. 1998. Digital systems research center Technical note 1998-014

[Aut] KLEINBERG, Jon M. Authoritative sources in a hyperlinked enviroment. 1997. Computer Science.

[Gil] GILES, C. Lee, BOLLACKER, Kurt D.,LAWRENCE, Steve. CiteSeer: An autommatic citation indexing system. 1998 4 s. IEEE Computer

[Goo] Google. Dostupný z <URL:http://www.google.com/ [4]>

[Law] LAWRENCE, Steve, GILES, C. Lee. Context and page analysis for improved web search. 1998, IEEE Internet computing

[Pok] POKORNÝ, Jaroslav, SNÁŠEL, Václav, HÚSEK, Dušan. Dokumentografické informační systémy. Karolinum, 1998

[NotAll] Not all search engines are created equal. Dostupný z <URL:http://www.cyward.com/notall.htm [5]>

[Page] PAGE, Lawrence, BRIN, Serge, RAJEEV Motwani, WINOGRAD, Terry. PageRank: Bringing order to the Web. Dostupný z <URL: http://www-pcd.stanford.edu/~page/papers/pagerank/ppframe.htm [6]>

Klíčová slova:

search engines [7]

Hodnocení: