Způsoby hodnocení relevance vyhledaných dokumentů ve vyhledávacích strojích
- v profesionálních systémech je relevance definována jako počet relevantních dokumentů na výstupu / počet všech dokumentů na výstupu systému
- pro neprofesionální systémy a především pro VS považuji za relevantní výsledek takový v němž se mezi několika prvními výsledky objeví alespoň jeden, který uspokojí uživatele (ať už tím , že ve výsledku vyhledávání bude přímo relevantní dokument nebo tím, že ve výsledku bude dokument odkazující na relevantní dokument)
Kritéria
následuje seznam hodnotících kritérií spolu s jejich stručnou charakteristikou [NotAll]Kritéria založená na vlastnostech dokumentu
- frekvence výskytu hledaného slova. Čím častěji se hledané slovo vyskytuje v daném dokumentu, tím má dokument větší šanci získat lepší hodnocení. Tohoto principu lze jednoduše zneužít, proto vznikla varianta používání tohoto kritéria. VS vypočte průměrný počet výskytů daného slova v celé kolekci dokumentů a potom uvažuje pouze dokumenty ve stanoveném rozpětí od této průměrné hodnoty (extrémní hodnoty neuvažuje). Tak lze filtrovat dokumenty, které se snaží neoprávněně získat lepší hodnocení. Bohužel může dojít k tomu, že některé novotvary nebudou brány v potaz. Zároveň lze tímto způsobem částečně filtrovat překlepy.
- pozice slova v dokumentu. U tohoto kritéria se hodnotí pozice slova v dokumentu. Skóre se zvětšuje čím blíže se slovo vyskytuje začátku dokumentu. Zvlášť jsou hodnocena slova v názvu. Některé VS hodnotí i to, zda se slovo vyskytuje v URL. V případě URL je zvlášť hodnoceno jméno domény nebo serveru a zvlášť cesta v rámci jednoho počítače.
- existence metatagu. Některé VS zjišťují existenci metatagu a zlepšují hodnocení dokumentu, pokud se v něm hledané slovo vyskytuje. Podobně jako u zjišťování frekvence výskytu slov zde platí, že toto kritérium lze snadno zneužít. Některé VS se proti tomu brání a snižují hodnocení dokumentům, ve kterých se tento prohřešek vyskytl.
Toto jsou kritéria, která nejsou závislá na konkrétním hodnoceném dokumentu. Určují se z celé kolekce dokumentů. Jde o jakýsi druh citační analýzy. Během vývoje VS se objevili následující implementace:
- populárnost daného dokumentu: při tomto hodnocení se bere v potaz pouhý součet všech odkazů na daný dokument. Jde v podstatě o popularitu daného dokumentu. Zdá se to být dobrým kritériem, ale při hlubším zamyšlení zjistíme určité nedostatky. Jde především o to, že toto kritérium opravdu znamená pouze populárnost daného dokumentu. V žádném případě nic nevypovídá o kvalitě dokumentu. Proto použít toto kritérium pro hodnocení relevance není ideální. Pro získání dobrého hodnocení stačí pouze být populární.
- citační analýza: autoři VS Google [Goo] vyšli z myšlenky citační analýzy a impact faktoru a navrhli hodnotící systém kopírující citační rejstřík. Funguje tak , že "hodnota" dokumentu je sumou hodnot dokumentů, které na daný dokument odkazují / počtem odkazů vedoucích z dokumentu. Toto hodnocení je normalizováno, takže jeho maximální hodnota může být menší než jedna. Na příkladu ukáži jak to prakticky funguje. Pokud má dokument hodnocení 0,5 a vede z něj pět odkazů pak si každý dokument na který je odkazováno z tohoto dokumentu vezme hodnocení 0,1. Pro získání vysokého hodnocení musí na daný dokument vést buď velké množství odkazů z málo významných dokumentů nebo stačí i menší množství z významných dokumentů. Takto tento systém velmi věrně kopíruje citační analýzu a je velmi málo náchylný na manipulaci. Tato strategie vede k velmi dobrým výsledkům vyhledávání. Vyniká především v dotazech na konkrétní věci. Na druhou stranu ve všeobecných dotazech nevyniká žádný VS. Pro tyto dotazy bude potřeba zahrnout do VS prvky umělé inteligence a znalostního inženýrství.
Závěr
Celkové "skóre" dokumentu je pak vypočteno jako součet jednotlivých kritérií násobených jejich váhou. Hodnota váhy pro jednotlivá kritéria se liší systém od systému. V závislosti na konstrukci vyhledávače ji autoři víceméně experimentálně určují. Do budoucna vidím možná zlepšení především v zapracování dalších metod bibliometrie a počítačové vědy např. [Aut], [Law], [Gil] a pak už nezbude jiná cesta než automatická analýza textů a automatické porozumění textům.[AV] SILVERSTEIN, Craig, HENZINGER, Monika, MARAIS, Hannes. Analysis of a very large AltaVista query log. 1998. Digital systems research center Technical note 1998-014
[Aut] KLEINBERG, Jon M. Authoritative sources in a hyperlinked enviroment. 1997. Computer Science.
[Gil] GILES, C. Lee, BOLLACKER, Kurt D.,LAWRENCE, Steve. CiteSeer: An autommatic citation indexing system. 1998 4 s. IEEE Computer
[Goo] Google. Dostupný z <URL:http://www.google.com/>
[Law] LAWRENCE, Steve, GILES, C. Lee. Context and page analysis for improved web search. 1998, IEEE Internet computing
[Pok] POKORNÝ, Jaroslav, SNÁŠEL, Václav, HÚSEK, Dušan. Dokumentografické informační systémy. Karolinum, 1998
[NotAll] Not all search engines are created equal. Dostupný z <URL:http://www.cyward.com/notall.htm>
[Page] PAGE, Lawrence, BRIN, Serge, RAJEEV Motwani, WINOGRAD, Terry. PageRank: Bringing order to the Web. Dostupný z <URL: http://www-pcd.stanford.edu/~page/papers/pagerank/ppframe.htm>