Sorry, you need to enable JavaScript to visit this website.

Úskalí vyhledávání faktografických informací

Čas nutný k přečtení
13 minut
Již přečteno

Úskalí vyhledávání faktografických informací

1 comments
Autoři: 
Usilujeme-li nalézt mezi soubory dokumentů k zadanému požadavku relevantní odpověď, nepotřebujeme k tomu v zásadě žádnou složitou vyhledávací strategii. Stačí formulovat dotaz složený z několika klíčových slov a nechat jimi prohledat WWW stránky nebo soubory uložených textů. Téměř vždy se k dotazu nalezne určitý počet obsahově příbuzných dokumentů.

Obtížnější je hledání v případě, když požadujeme na jednoznačně formulovaný požadavek stručnou, výstižnou a jednoznačnou odpověď. Jednoznačným požadavkem rozumíme např. formulaci : "Jakou hmotnost má Země" Jednoznačnou, stručnou odpovědí rozumíme odpověď: "Země má hmotnost ´xyz´ tun". (Kdybychom zadali tento dotaz klasickému vyhledávacímu stroji např. formou "hmotnost AND Země", získali bychom pravděpodobně množství dokumentů, počínaje historickými pokusy o odhad hmotnosti Země až po Cavendishovy exaktní pokusy o její "zvážení" na základě jím objevené hodnoty gravitační konstanty a ze známé hodnoty přitažlivosti Země.

Vysoký počet vyhledaných dokumentů v dokumentografických systémech je zapříčiněn tím, že vyhledávací systémy hledají pouze formální shodu mezi řetězci či subřetězci zadaných lexikálních jednotek dotazu.

V případě vyhledávání odpovědi na dotaz týkající se určitého faktu, je problém v tom, že systém musí dotazu porozumět, aby mohl nalézt odpověď, a to i v případě, že v několika různých textech bude odpověď formulována pokaždé odlišným způsobem.

Proč tomu tak je?

Dokumenty, jak víme, představují prostředky přenosu či uchování modelů skutečnosti ve znakové podobě. Mezi modely a soubory znaků, které je reprezentují, existuje určitý stupeň volnosti, projevující se tím, že rozdílné modely lze popsat soubory znaků s vysokým počtem shodných prvků i vazeb mezi prvky a naopak k popisu obsahově blízkých modelů lze použít soubory znaků s velmi nízkým stupněm podobnosti prvků a jejich vazeb.

Poměrně vysoká míra volnosti způsobuje, že ve dvou či více textech přinášejících shodné modely můžeme rozlišit rozdílně formulované jednotky. Nazvěme tyto jednotky faktovými či faktografickými informacemi a systémy, které takto strukturované informace uchovávají faktografickými systémy.

Jednoznačnou odpověď můžete získat jen na velice jednoduchý dotaz (např. "Jakou atomovou váhu má vodík?"). Ve složitějších případech můžete dospět ke zcela rozdílným výsledkům:

Např. na dotaz "Keplerovy zákony pohybu planet" můžete získat dva odlišné výstupy:

Výstup 1:

1.Planety obíhají po eliptických drahách kolem Slunce, které je ve společném ohnisku elips.

2. Plochy opsané průvodičem planety (spojnice planety a Slunce nebo např. družice se středem Země) za stejnou dobu jsou vždy stejné.

3. Druhé mocniny oběžných dob planet, jsou v témž poměru jako třetí mocniny velkých poloos. (Malá čs. encyklopedie, Praha, Academia 1986. s. 365)

Výstup 2:

Orbita má tvar elipsy, stejné plochy jsou opsány za stejnou dobu a době oběhu je úměrná odmocnině z třetí odmocniny velikosti orbitu. (Feynman,R,P.: O povaze fyzikálních zákonů, Praha, Aurora 1998. 185 s.)

Z uvedených rozdílů mezi texty, ať už se jedná o texty jako odpověď na dotaz nebo texty, v nichž systém vyhledává, je zřejmé, že systém nemůže spolehlivě vyhledat relevantní dokument, pokud textu dotazu skutečně nerozumí a pokud hledá v prohledávaných souborech pouze formální shodu mezi řetězci či subřetězci slov dotazu a textu.

Nyní, když jsme si trochu objasnili některé lingvistické zvláštnosti textu, bychom měli objasnit, co míníme porozuměním textu a zda je možné abstrahovat z textů na základě tohoto porozumění informace či poznatky.

Porozuměním textu rozumíme proces, v němž se jednotlivé rozlišitelné prvky textu společně s dalšími prvky uloženými již v našem mozku, skládají do větších celků a teprve potom nabývají smyslu, podobně jako jednotlivé kamínky vytvářejí mozaiku, když se složí podle nějakého plánu.

Přijmeme-li tuto hypotézu, zbývá rozhodnout, jak terminologicky rozlišit jednotky nižší a vyšší a navíc formulovat vazby mezi nimi. Prozatím se tyto úrovně nerozlišují. V jednom případě se o prvcích nižší úrovně mluví jako o informacích, o prvcích vyšší úrovně jako o poznatcích, v jiných případech je tomu právě naopak. Protože v současné odborné literatuře nevyvolává směšování pojmů fakt, data, informace, poznatek, znalost pocit nepříhodnosti, obrátím svoji pozornost do oblasti, která terminologickému projasnění věnovala pozornost.

Naše hledání se v jistém smyslu shoduje s hledáním, které započal na počátku století pozitivismus. Lidské poznání bylo na počátku století v dílech logických pozitivistů B. Russella, R. Carnapa, L. Wittgensteina chápáno jako jakási asimilace objektů vnějšího světa do lidské mysli. Prostředníky této operace byla slova, chápaná jako jakési nálepky připevněné na věci a umožňující tak zprostředkování poznání. Elementy světa a jazyka, který je umožňuje zobrazit, si podle této teorie odpovídají. Za základní stavební kameny světa byly považovány jednotliviny, individua a jejich vlastnosti, vztahy. V ideálním případě je možné jednoduchý fakt a jeho vlastnost vyjádřit holou větou, skládající se z podmětu a přísudku (např. Kočka přede). Tento fakt byl považován za pravdivý, bylo li možné "zde" a "nyní" pozorovat předoucí kočku.

Ve stručnosti lze shrnout tuto teorii následovně: fakta jsou bezprostředně dána a jsou vyjádřitelná jednoduchým výrazem. Složitější výroky vznikají skládáním výroků jednodušších, ale vždy se lze jejich rozložením dobrat k primárním faktům.

Pozitivisté tedy dospěli k závěru, že mezi empirickými prvky a prvky ostatními existuje poměrně ostrá hranice. Empirické prvky odkazují na vnější svět, druhé slouží k vyvozování složitějších výroků z jednodušších. Pozitivisté tedy přísně rozlišovali svět nezkreslený jazykem a svět jazykových formulací a veškeré svoje úsilí věnovali dokazování existence strukturálního izomorfismu mezi nimi.

Teoretikové, kteří přišli po pozitivistech (W. V. O. Quine, Sellars, R. Rorty), vycházeli z poznání, že tento izomorfismus nelze dokázat.

Rorty, který tento pokus o jakousi teorii odrazu kritizoval jako první, např. tvrdí, že toto chybné chápání vědění v termínech vnímání, které nakonec vyústilo ve víru, že naše poznání je jakýmsi zrcadlem přírody, je dědictvím filozofie již od Platóna, Descartesa a pokračuje až do přítomnosti.

Poznání není, dle něho, možné odvozovat ze smyslových dat a tudíž nelze stavět informace získané přímo nad informace odvozené.

Tito teoretikové i jejich následovníci rezignovali tedy na možnost určit, že jednotkou kontaktu člověka se světem není jednoduchý výrok nebo jeho složenina, ale celá provázaná stavba poznatků se všemi důsledky, které lze z jejích výroků odvodit - tedy ucelená teorie.

Teorie jako jednotka poznání ovšem vnáší do problematiky vyhledávání odpovědi na dotaz a zejména odpovědi stručné a výstižné řadu nových otázek.

Jaký je vztah mezi jazykovou, logickou a faktovou strukturou jakékoliv teorie? Dospívá se k názoru, že mezičlánkem mezi dotazem a texty by měl být jakýsi referenční, znalostní subsystém, který by obsahoval klasifikaci, strukturaci znalostí a stal se pro vyhledávací systém jakýmsi překladačem z přirozeného jazyka do jazyka znalostí.

Jakou míru inteligence však reprezentují fulltextové vyhledávací systémy? Žádná fulltextová databáze v přirozeném jazyku, totiž i kdyby byla sebepodrobněji hypertextově provázána "si nemůže stát za tím, co obsahuje", protože není inteligentní natolik, aby obsahovala skutečné znalosti, které jsou vždy předpokládány za slovy, větami sdělení. Jak může počítač např. vědět, co ve větě "kancelářský pracovník dělal uzávěrku" co znamená "kancelářský pracovník", "dělal", "uzávěrku"? Stačí větu obměnit na "úředník ", "účtoval", "poslední", "období" a žádný systém mezi nimi podobnost nenalezne. K tomu nestačí připojit ke každému slovu synonyma apod., k tomu je nutné systému dodat zcela nový subsystém znalostí, který umožní porozumět celé struktuře sdělení.

Příkladem takového inteligentního systému je systém CYC. Kromě slovníku obsahuje podstatné informace o každém slově analyzovaného textu. Musí systém obsahovat Syntaktický analyzátor, který obsahuje pravidla, na jejichž základě vstupují slova do kontextu s ostatními slovy věty.

Sémantický analyzátor poskytuje znalosti, inferenční pravidla, vztahující se ke slovům analyzovaného textu. Např. ve výše uvedené větě musí pomocí inferenčních pravidel dokázat odvodit, že "dělat uzávěrku " a "účtovat poslední období" jsou činnosti, které mohou znamenat totéž, že "kancelářský pracovník" a "úředník" jsou stejné výrazy pro totéž apod.

Je zřejmé, že k vyhledávání faktografických informací se fulltextové databáze ani běžné vyhledávací stroje nehodí. Výsledkem hledání faktografických informací v těchto souborech by byl silný šum. Dokud se nepodaří vyřešit problém vztahu mezi informacemi, poznatky, daty, pojmy a fakty skutečnosti, nelze ani vytvoření fungujícího algoritmu očekávat.

Systémy pro vyhledávání faktografických informací představují v této vývojové fázi vývoje spíše soubory predefinovaných odpovědí na očekávané otázky, zpravidla využívající soubory FAQ nebo hesla encyklopedií a slovníků. Na skutečné znalostní databáze umožňující analyzovat plné texty si ještě budeme muset počkat. Znalostní databáze, expertní systémy zatím fungují jako nadstavba nad bázemi znalostí (velice znalostně provázaných oblastí lidského poznání) v ordinacích lékařů či kancelářích právníků).

Podívejme se nyní, jaké možnosti z tohoto hlediska nabízí Internet.

Vyhledávání v oblasti dokumentografických a faktografických informací se výrazně liší. Faktografický systém:

- je schopný pracovat v přirozeném jazyku. Nevyžaduje booleovské výrazy,
- nevyužívá pouze prostoru WWW stránek, ale čerpá i z databází novinových článků, encyklopedií apod.,
- poskytuje na stručný dotaz stručnou odpověď. Pokud takovou odpověď nedokáže sestavit, nabídne odkaz na prameny, kde odpověď získáte,

Testované faktografické systémy

Při testování jsem dospěl k dospěl k závěru, že dokumentografické vyhledávací systémy mají inteligentnější programové zabezpečení než systémy faktografické. Přesto můžeme i v této oblasti identifikovat zajímavé projekty. Uvedeme charakteristiky, které umožňují rozdělit je do několika skupin:

Kategorizace faktografických systémů:

1. Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) s podporou složitějších lingvistických algoritmů. Na jednoduše formulovaný dotaz formulují stručnou odpověď. Ve složitějších případech nabídnou odkaz na relevantní dokument (Askjeeves, Answers, Information Please, Electric Library (placená služba), Faqfinder).
2. Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) bez podpory složitějších lingvistických algoritmů. Nedokáží zpravidla samy formulovat odpověď, pouze odkazovat na zdroj informace. (Manifold, CrossSearch, Knowledge Base (Menus, Glossar), Usenet Faqs, Search the Faq´s ).

3. Systémy vyhledávají pouze jasně identifikovatelné informace v textu např. E-maily, URL, vlastní jména (Ratchet).

Charakteristika systémů:

1. Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) s podporou složitějších lingvistických algoritmů

Askjeeves

Téma: universální databáze
Přijímá dotaz v přirozeném jazyku. Databáze obsahuje 6 mil. záznamů. Odpověď na dotaz je rychlá, výstupy stručné. Obsahuje 4 subsystémy:

a) Subsystém zpracování dotazu - podrobí dotaz v přirozeném jazyku sémantické a syntaktické analýze, aby porozuměl jeho gramatické a významové struktuře, vytvoří z dotazu významové segmenty (question template) a těmi prohledává databázi.
b) Subsystém zpracování odpovědi - připraví výstup po formální i obsahové stránce tak, aby vyhovoval zadanému požadavku.
c) Znalostní databáze - byla vytvářena týmem pracovníků s použitím inteligentního nástroje Jeeves Research Assistent (JAR). Pracuje na bázi sémantické sítě umožňující provázat segmenty dotazu s maximálním počtem relevantních informací.
d) Metavyhledávací subsystém - zpracovává odpovědi pěti vyhledávacích subsystémů do přehledných výstupů nabízejících širokou škálu odpovědí.

Podařilo se získat uspokojivé odpovědi na dotazy: Kde se nachází Praha? Kdo je a co napsal W. Shakespeare? Kolik váží Země? Electric library (placená služba) Téma: Universální databáze
Přijímá dotaz v přirozeném jazyku.
Umožňuje specifikovat dotaz, což má vliv na rychlost a celkovou úspěšnost vyhledávání:
- specifikace informačního zdroje
- specifikace informačního obsahu (zdraví, školství, obchod, literatura apod.)
- časové ohraničení prohledávaných dokumentů
- specifikace bibliografických informací (autor, název dokumentu apod.)

Dotaz je též možno zadat s využitím booleovských výrazů.
Electric library využívá kromě rozsáhlé vlastní databáze i řady encyklopedií a jiných zdrojů.
Systém používá jednoduchý algoritmus pro lingvistické zpracování dotazu. Proto je účelné formulovat dotaz pečlivě (omezit např. počet nevýznamových slov, klást důraz spíše na substantivní výrazy apod.).
Při vyhledávání lze vhodnou specifikací dotazu ovlivnit kvalitu vyhledávání. Např. volbou low/high (power setting) lze dosáhnout zúžení či rozšíření výběrů.

Podařilo se získat úspěšné odpovědi na dotaz: Kde se nachází Česká republika? apod.

Answers

Téma: universální databáze.
Přijímá dotaz v přirozeném jazyku. Čerpá z rozsáhlých souborů dat. Odpovědi na nejčastěji kladené otázky nabízí přímo na hlavním menu. Ty jsou zodpovězeny ihned. Nejfrekventovanější otázky jsou zodpovězeny E-mailem.

Podařilo se získat odpověď na dotaz: Znáte nějakou hru od W. Shakespeara? Information Please Téma: universální databáze
Přijímá dotaz v přirozeném jazyku. Hlavní menu je pro usnadnění vyhledávání rozčleněno do obsahových kategorií (společnost, lidé, zábava apod.). Lze si buď zvolit některou z nich, čímž se zúží objem prohledávaných dokumentů nebo prohledávat všechny. Při použití víceslovné fráze, jsou upřednostněny stránky a dokumenty obsahující tuto celou frázi a teprve za nimi jdou stránky, dokumenty, obsahující jednotlivá slova fráze.

Kromě prohledávání vlastních zdrojů používá systém jako informačních zdrojů encyklopedie a slovníky.

FaqFinder

Téma: universální databáze
FaqFinder představuje automatizovaný dotazovací systém, který využívá soubory FAQ (Frequently-Asked Question) mnoha zpravodajských systémů. Protože tyto systémy shromažďují nejfrekventovanější otázky-odpovědi již mnoho let, je pravděpodobnost získání odpovědi poměrně veliká. (Vyšší je samozřejmě pro dotazy týkající se problematiky západního světa).

Položili jsme systému několik otázek. V některých případech poskytl několik přímých alternativních odpovědí, na složitější otázky nabídl alternativní zdroje, které stručnou odpověď poskytly.

2. Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) bez podpory složitějších lingvistických algoritmů Manifold Téma: oblast filmu
Poskytuje specifické informace z oblasti filmu. Nabízí vstupní formulář pro následující vstupy: název filmu, rok vydání, žánr, producent, herec apod. Po zadání otázky systém vyhledá relevantní zdroje a zkombinuje informace z většího počtu zdrojů do jednoduché odpovědi. Výstupem jsou odkazy na zdroje, z nichž zpravidla nalezne odpověď na svůj dotaz.

KBSearch

Téma: výpočetní technika
Využívá databázi informací z báze Usenet, což je elektronická konference lidí z celého světa.
Při zadávání dotazu možno volit jednu z kategorií nabízených na hlavním menu nebo zadáním dotazu v přirozeném jazyku. Systém vyhledává na základě rozpoznání řetězců slov.
K dispozici jsou statistické údajeo využití databáze a nejfrekventovanějších tématech. KBSearch osahuje další dva subsystémy: Menus obsahující tématicky uspořádaný výběr hesel z KBSearch. Glossary obsahující abecedně uspořádaný výběr hesel z KBSearch.

CrossSearch

Téma: Kultura všeobecně, religiozita
Při zadávání dotazu možno volit jednu z kategorií nabízených na hlavním menu nebo zadáním dotazu v přirozeném jazyku. Systém vyhledává jednotlivá slova dotazu v textu, jako subřetězce v řetězcích, čímž sice vzrůstá úplnost vyhledávání, ovšem na úkor jeho přesnosti. Navíc neobsahuje slovník zakázaných slov, takže dotaz je nutné formulovat velmi pečlivě.

Usenet Faqs

Téma: Universální databáze.
Obsahuje seznam všech odpovědí elektronické konference Usenet uspořádaných v abecedním pořádku.
Podařilo se získat odpověď na dotaz: "Skauting v České republice" s poměrně obsažnou charakteristikou.

Search the Faq´s

Téma: Universální databáze
Obsahuje informace z lokální databáze Excite nebo nalezené vyhledávacím strojem Excite. Prohledává na základě analýzy klíčových slov dotazu v textu, bez analýzy gramatických vazeb. Důsledkem je poměrně velký šum. Odpovědi jsou uspořádány podle procenta úplnosti odpovědi.

3. Systémy vyhledávají pouze jasně identifikovatelné informace v textu

Ratchet

Nevyhledává odpovědi jen na jednorázové dotazy, ale průběžně na predefinovaná zadání. Dokáže vyhledat jen jednoznačně identifikovatelné řetězce slov např. E-mail, URL, vlastní jména apod.)

Závěr

Vytvoření faktografické databáze se znalostní databází představuje vysokou investici. Využívání zahraničních faktografických databází našimi uživateli je přitom zatím málo efektivní, protože tyto databáze jsou orientovány na západní kultury a údaje, které potřebují naši uživatelé prostě zatím neobsahují.
Tuzemské faktografické systémy jsou koncipovány převážně jako prázdné systémy, které musí uživatel doplnit daty. Algoritmy pro česky jazyk se navíc liší od algoritmů pro angličtinu a na jejich vývoj nejsou kalkulovány požadované prostředky.
Problém však, jak jsme nastínili v úvodu, je ještě jinde. Lidské poznání zatím nedospělo k pochopení vztahu mezi informacemi, daty, informacemi, poznatky, pojmy a fakty skutečnosti. Tento nedostatek bude ještě dlouhou dobu komplikovat vytváření inteligentních informačních systémů.
Hodnocení: 
Zatím žádné hodnocení
JONÁK, Zdeněk. Úskalí vyhledávání faktografických informací. Ikaros [online]. 1999, ročník 3, číslo 1 [cit. 2024-11-13]. urn:nbn:cz:ik-10243. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10243

automaticky generované reklamy

Máme zde 1 komentář

Abstrakty článků v odborných časopisech, plné texty článků v on-line časopise "Professional Surveyor Magazine", plné texty příspěvků z konferencí, odkazy na podobné linky 1Y0-259. Společnost tvoří čtyři členské organizace. Společně plně pokrývají celé spektrum vědních oborů působících na poli prostorových datových informací (The American Association for a+ certification Geodetic Surveying, The Cartography and Geographic Information Society, The Geographical and Land Information Society and The National Society of Professional Surveyors). ACSM také zahrnuje řadu geograficky orientovaných sekcí, jež vytvářejí fórum pro diskuze týkající se průmyslu jako celku; často spolupracují s vysokými školami a univerzitami.