Znalostní vyhledávání v katalozích Knihovny Akademie věd
On-line naleznete systém na webovských stránkách KNAV pod odkazem Souborný katalog - Excalibur [6]. Vyhledávací systém nese označení RetrievalWare [7] a je "vlajkovým systémem" společnosti Excalibur Technologies [8]. Na počátku září budou prostřednictvím Excaliburu zveřejněna data přibližně třetiny (asi dvaceti) knihoven ústavů Akademie věd ČR.
Než se dostaneme k samotnému produktu, rád bych přiblížil, co se pod termínem "knowledge retrieval" skrývá. Domnívám se, že by bylo vhodné začít s definicí slova "knowledge" (znalosti) a několika srovnáními.
Znalosti
- Znalosti jsou dnes zpravidla definovány jako přesné informace, které naplňují potřebu, napomáhají řešit problém, hrají kritickou roli v životě organizace a ovlivňují vše od rozhodování až po efektivnost pracovníků.
- Webster´s New Encyclopedia Dictionary (1993) definuje slovo knowledge:
- IT společnost používá jednoduchou definici - Knowledge is Intelligence put to work
- Arthur Andersen (konzultační a poradenská firma) považuje znalosti jako Knowledge is information that has value
- Pravděpodobně však nejjasnější definice znalostí pochází z dob daleko před informačním, elektronickým a nebo vůbec průmyslovým věkem. Sir Francis Bacon (1561-1626) napsal Knowledge is power. 1)
Termín Information glut (zahlcení informacemi) vystihuje skutečnost, kterou všichni známe z vyhledávání na Internetu. Pokud používáte Internetové vyhledávací systémy (Yahoo!, Altavista apod.), víte, že orientace v samotném výsledku hledání je mnohdy téměř nemožná. Ochotu uživatele projít vyhledané dokumenty vystihuje následující graf. Pokud si chcete v tomto okamžiku čtení přiblížit, o čem píši, doporučuji vám spustit nové okno prohlížeče a do některého z internetových fulltextových vyhledávacích služeb zapsat téměř libovolný dotaz. Pokud je odpovědí např: "Bylo nalezeno 12 936 stránek", narazili jste na problém, o němž je tento článek.
Znalosti versus informace
Jaký je tedy rozdíl mezi informacemi a znalostmi?
Informace není znalostí, pokud:
- neuspokojují příslušnou potřebu.
- neodpovídá na otázku.
- neřeší problém.
- není relevantní.
- nemá konkrétní význam.
- ji nemůžete použít.
Informace nemá hodnotu, dokud se nestane znalostí.
Pro srovnání vyhledávacích systémů lze použít výčet základních kriterií, přičemž poslední dvě (odezva a preciznost) jsou klíčovými, zejména v textovém vyhledávání, neboť reprezentují celkovou přesnost a efektivnost těchto systémů.
Kritéria informačního (znalostního) vyhledávacího řešení
- Záběr – rozsah různých typů dat, ve kterých má být vyhledáváno. Je systém limitován na text nebo je schopen zvládnout různé typy digitálních medií?
- Rychlost – jaká je doba mezi definicí dotazu a dodáním odpovědi?
- Výstup – jaké jsou možnosti prezentace výsledku vyhledávání? Poskytuje systém přímý přístup do dokumentů a je schopen vyhodnocovat relevanci?
- Možnosti – Jaké možnosti jsou poskytnuty uživateli pro definici dotazu? Jsou nezbytné hlubší znalosti dotazovacího jazyka nebo systém umožňuje zadat dotaz pomocí přirozeného jazyka?
- Odezva – poměr všech relevantních dokumentů k dotazu ve vyhledaném souboru a dokumentů, které nebyli při vyhledávání nalezeny.
- Preciznost – poměr vyhledaných dokumentů, které jsou relevantní odpovědí na zadaný dotaz, a vyhledanými dokumenty, které relevantní nejsou
Je skutečností, že v dnešní době, kdy lze využívání počítačů považovat za běžnou záležitost, není možné chtít po uživatelích složitě definované dotazy, které by vedly k relevantním výsledkům.
Nabídka definovat dotaz pomocí přirozeného jazyka je pravděpodobně v textovém vyhledávání na nejvyšší úrovni. V následující tabulce je znázorněn dotaz sestavený pomocí booleovských operátorů a k němu shodný dotaz v přirozeném jazyce, jehož zpracování umožňuje technologie semantické sítě. Výsledek vyhledávacího procesu musí být pochopitelně shodný. 2)
V mnoha systémech je booleovský dotaz sestaven na základě vyplnění určitých políček, ale to je to samé. Měl by obsahovat všechny varianty údaje (to lze částečně nahradit tezaurem) a nesmí v něm být překlep nebo jiný tvar slova! (Časté překlepy mohou být opět zařazeny do odkazů tezauru, ale to není řešení.)
Excalibur RetrievalWare -
znalostní vyhledávací systém založený na technologiích APRP (Adaptive
Pattern Recognition Processing) a sémantické
sítě.
Základní vlastnosti:
- Vysoká úroveň relevance a rychlosti vyhledávání i z databází o objemu terabytů dat.
- Schopnost zvládat soudržnost rychlosti vyhledávání ve velkých souborech dat při více-serverové a více-vláknové architektuře.
- Schopnost spojit rozličné zdroje dat, typické pro podniková řešení, jakými jsou například data relační databáze, elektronické dokumenty a dokumenty snímané scannerem do plnotextové databáze pomocí technologie APRP.
- Volba jednoduchého, uživatelům známého rozhraní webovského prohlížeče nebo zakomponovaného rozhranní v populárních prostředích jakými jsou groupware, workflow a dokument management systémy.
- Vysoká úroveň spolehlivosti pomocí APRP tolerance chyb, umožňující uživateli vyhledat požadované informace bez ohledu na překlepy v zadávaném dotazu nebo v původním dokumentu v prohledávaných datech.
- Indexace bez zásahu do dat, bez ohledu na jejich zdroj, umožňující jednoduchou implementaci a velmi nízká rizika projektu [9].
Trochu více o jedinečné technologii APRP a technologii sémantické sítě najdete zde [10]
Jak jsem již zmínil, technologie APRP je schopna pracovat s jakýmkoliv typem digitálních dat. Nemusí jít tedy pouze o vyhledávání v textu. Na stéjné technologii existují systémy pro vyhledávání (porovnávání) obrazových souborů (produkt Excalibur Visual RetrievalWare [11]) a indexování a porovnávání video sekvencí (Excalibur Screening Room [12]).
Komentáře či dotazy můžete zaslat na mou adresu: kocourek@incad.cz [13]
1) Getting started with Knowledge Management, Excalibur Technologies Co., 1998
2) Knowledge Retrieval Solutions, Excalibur Technologies Co., 1998