Inteligence systémů zpracování textů
Za ukazatel inteligence informačního dokumentografického a faktografického systému jsem stanovil schopnost systému porozumět zadanému dotazu a nalézt k němu relevantní odpověď. Za relevantní odpověď přitom nepovažuji nalezení souboru textů obsahující řetězce formálně shodné s řetězci lexikálních jednotek dotazu. Za relevantní odpovědi na zadaný dotaz považuji pouze vyhledání takového souboru textů, u nichž je evidentní, že systém nehledal v textu jednotlivé prvky dotazu, ale že při vyhledávání prokázal určitý stupeň porozumění obsahu dotazu.
Dnes se při hodnocení inteligence informačních systémů směšují dva nesouměřitelné přístupy:
- systémy zpracování numerických dat
- systémy zpracování textových dat
Oba typy informačních systémů se často zastřešují společným názvem “data mining”. Ztotožnění obou způsobů zpracování dat je velmi zkreslující, protože jde o přístupy z hlediska nároků na vytvoření algoritmu a programového řešení, co od obtížnosti, nesrovnatelné. V našem referátu zabývajícím se inteligencí informačních systémů se zaměřujeme pouze na systémy analýzy textových souborů
Co je pro textové systémy charakteristické?
Dokumenty z obecného hlediska představují prostředky přenosu či uchování modelů skutečnosti ve znakové podobě. Mezi modely a soubory znaků, které je reprezentují, existuje určitý stupeň volnosti, projevující se tím, že rozdílné modely skutečnosti lze popsat soubory znaků s vysokým počtem shodných prvků i vazeb mezi prvky a naopak k popisu obsahově blízkých modelů lze použít soubory znaků s velmi vysokým počtem rozdílných prvků a jejich vazeb.Rovněž dotaz položený vyhledávacímu systému je dotazem tazatele po modelu určité skutečnosti. Od plného textu se liší především počtem slov. Tato redukce počtu slov není pro systém, který má dotaz zpracovat, žádnou výhodou. Subsystém zpracování dotazu, má-li být vyhledávání skutečně účinné - tzn., má-li získat ze souboru textů nabízejících formálně podobné dokumenty, dokumenty shodné obsahově, musí vykonat řadu intelektuálně náročných operací. Inteligencí informačních systémů rozumíme schopnost nalézt shodné modely i v případě textů s vysokým počtem rozdílných prvků a naopak eliminovat texty zdánlivě shodné, obsahující vysoké procento pouze formálně, nikoliv obsahově shodných prvků.
Dnešní systémy využívající metodu automatické indexování jednotlivých izolovaných, výrazů k dosažení obsahové shody mezi dotazem a souborem textů nestačí.
V našem článku se pokoušíme poukázat na skutečnost, že inteligentní systémy využívající poznatky z lingvistiky či kognitivní vědy, vykazují vyšší pravděpodobnost, že kvalita vyhledávání bude vyšší než u systémů, které tyto poznatky neužívají.
Pro vyhledávání na Internetu je dnes charakteristický vysoký nepoměr mezi úplností a přesností vyhledávání. (Úplností vyhledávání rozumíme kvantitativní údaj udávající poměr vyhledaných relevantních a všech vyhledaných textů. Přesností vyhledávání rozumíme poměr vyhledaných relevantních a všech relevantních textů. Ideálem je dosažení situace, kdy hodnota koeficientu úplnosti i přesnosti se rovná 1.
Všechny negace se projevují ještě výrazněji u systémů faktografických informací, jejichž cílem je vyhledat k zadanému dotazu nikoliv seznam textů obsahující s určitou pravděpodobností požadovanou informaci, ale přímou stručnou odpověď na otázku. .
Metody zefektivnění vyhledávacích algoritmů
Dnes existuje řada pokusů o zvýšení efektivity vyhledávání. Pokusil jsem se je rozdělit podle charakteristických znaků do následujících skupin.- Zpracování struktury textů
- Intelektuální zpracování textů před vstupem do databáze či sítě
- Zpracování struktury dotazu
- Aplikace lingvistických poznatků (metody silmulující vlasnosti přirozeného jazyka)
- Řešení syntagmatických vztahů přirozeného jazyka
- Řešení asociativních vztahů přirozeného jazyka
- Aplikací poznatků kognitivní vědy
- Metoda filtrování s využití kumulované inteligence ostatních uživatelů informačního systému
- Systém využívající k porozumění textu obsahových kategorií
Roboty vyhledávacích systémů na Internetu nedokáží odlišit hodnotu lexikální jednotky, kterou vybírají z textu při automatické indexaci. Sémantická váha této jednotky se samozřejmě liší dle toho, zda je převzata z názvu, podnázvu, úvodu, závěru článku apod. Existují systémy, jejichž jediným cílem je přiřadit lexikální jednotce v textu váhu tím, že k ní připojí osvětlující komentář, potřebné synonymní, homonymní výrazy, nebo ji propojí s ostatními výrazy v textu. Jedním z takových systémů je systém ATLAS.ti
Systém si klade vyšší cíle než jen pouhý editor. Snaží se obsahově podobné aspekty textu (slova, věty, obrázky spojit v jednotku vhodnou pro obsahovou analýzu textu - tzv. hermeneutickou jednotku. Pojem "hermeneutická jednotka" již sám mnohé napovídá o cíli systému. Hermeneutika je věda, usilující o pravdivé, věrohodné, hlubší pochopení textů. Zabývá se tedy procesem interpretace. Systém Atlas.ti si neklade za cíl činnost tak náročnou jako je interpretace textu, ale snaží se poskytnout nástroje, které přiřadí nejasným vícevýznamovým prvkům textu jasnější charakteristiku, prováže obsahově příbuzné části text vazbami a spojí tyto prvky do vyšší jasně identifikovatelné kategorie - hermeneutické jednotky. Systém pracuje ve dvou modech: textovém a pojmovém. Textový režim realizuje segmentování datových souborů na dílčí obsahové úseky, označování textů, obrázků a zvuků. Uvedeným prvkům lze přiřadit vlastní indexy, anotace, komentáře. Pojmový režim spojuje vytvořené segmenty a znaky do sémantických sítí a umožňuje tak jejich vizualizaci a přehlednost.
Na tvorbě hermeneutické jednotky se podílejí tři editory:
- Editor pro tvorbu hermeneutické jednotky – umožňuje přiřadit ke každému výrazu textu komplexnější popis,
- Network editor – umožňuje vzájemně přiblížit pojmy obsahově blízké, umístěné na různých místech textu tím, že je propojuje vazbami,
- Relační editor – umožňuje upřesnit sémantické vztahy mezi výrazy tím , že charakterizuje poskytuje pomocí vazebných operátorů (is part of, is property of apod.).
Existuje celá řada metod dospívajících ke zvýšení efektivnosti dokonalejším poznáním struktury dotazu i textu s následnou analýzou jejich podobnosti. Vychází se přitom z předpokladu, že s dosažením vyšší míry podobnosti dotazu a textu lze dospět k optimu úplnosti i přesnosti vyhledávání. Uvedeme několik typů vyhledávacích metod a pokusíme se je ohodnotit z hlediska jejich efektivnosti.
Nejčastěji používané jsou metody statistické, založené na předpokladu, že lexikální jednotky s vyšší frekvencí výskytu jsou současně nejzávažnějšími nositeli obsahu.
Rozlišujeme následující statistické metody:
Analýza absolutní četnosti výskytu slov či sousloví dotazu v textu
Při hodnocení výše shody mezi dotazem a textem rozhoduje pouze absolutní počet výskytů slov dotazu v textu. Text s nejvyšší frekvencí výskytů jednotek dotazu v analyzovaném textu (dále: klíčových slov dotazu) je zařazen při výběru na první místa mezi relevantní texty. (Nutné je ovšem použít tzv. slovník zakázaných slov pro slova s extrémně vysokým výskytem, jakého dosahují např. spojky či předložky). Tuto metodu užívají s určitými vylepšeními ve spojení s booleovskými operátory běžné vyhledávací stroje na Internetu. Touto metodou se dosahuje vysokého koeficientu úplnosti a velmi nízkého koeficientu přesnosti.
Analýza relativní četnosti výskytu slov či sousloví dotazu v textu
Při hodnocení výše shody mezi dotazem a textem rozhoduje počet výskytů klíčových slov dotazu vztažený k výskytu klíčových slov v rozsáhlém souboru textů. Oproti předchozí metodě může nabýt významu i údaj s nízkou frekvencí výskytu, pokud se například ukáže, že je specifický pro jistý obor či skupinu textů. Touto metodou se zlepšuje hodnota koeficientu přesnosti, i když často za cenu nižší hodnoty koeficientu úplnosti. Metody simulující vlastnosti přirozeného jazyka Nízká efektivita výše uvedených metod je zapříčiněna nerespektováním faktu, že význam věty a vyšších textových úseků není výsledkem pouhé sumarizace významů jednotlivých slov, ale závisí na jejich umístění ve větě a jejich vzájemných vztazích
Dokonalejší systémy se snaží tyto požadavky v algoritmu analýzy dotazu a textu simulovat.
Jazyk je dle F. de Saussura systém v němž jsou všechny jednotky vzájemně solidární a kde hodnota jednoho prvku vyplývá ze současné přítomnosti druhých. Porozumění dotazu tedy závisí na porozumění vztahům mezi slovy.
Našeho problému se bezprostředně týkají dva vztahy: syntagmatický (horizontální) a asociativní (paradigmatický, vertikální).
Řešení syntagmatických a asociativních vztahů přirozeného jazyka
Syntagmatické vztahy vyplývají z linearity vztahů slov ve větě a znamenají, že význam slova se z velké míry odvozuje z jeho místa ve větě.
Asociativní vztahy se týkají vztahu slova k ostatním slovům jazyka, které v této větě nejsou, ale mohly být užity.
1. Řešení syntagmatických vztahů
- Vyhodnocení shody mezi pořadím jednotek dotazu a pořadím jejich výskytů
v textu
Konstrukce tohoto algoritmu vychází z předpokladu, že existuje logická vazba mezi jednotlivými jednotkami dotazu, která se promítá do jejich pořadí. Ze shody pořadí slov dokumentu a dotazu lze potom odvodit, že i v dokumentu jsou tyto jednotky ve stejném vztahu. Vyhodnocení vzdálenosti mezi jednotkami dotazu, vyskytujícími se v textu
Konstrukce tohoto algoritmu vychází z předpokladu, že čím více nepožadovaných informací dokument obsahuje, tím nižší je shoda mezi dokumentem a dotazem, tj. čím dále jsou v textu od sebe jednotky dotazu, tím nižší je vypovídací schopnost zkoumaného dokumentu. Vzdálenosti dvou sousedních výskytů jsou měřeny v počtu lexikálních jednotek ležících mezi nimi.
Simulaci gramatiky využívají některé známé systémy.
Vzdálenostní operátory (proximy operators) používá např. systém Topic, aplikující při vyhledávání v databance algoritmus firmy Verity. Operátory Sentence, Paragraph, Near a Near/n pak vyhledají dokumenty, v nichž se hledaná slova (nebo i slovní spojení) vyskytují v určitých maximálních odstupech a to v libovolném vzájemném pořadí.
Z výše uvedených informací jasně vyplývá, že při zvyšování efektivnosti práce s textovými informacemi je potřeba využít určitých lingvistických znalosti a zákonitostí struktury textu. 2. Řešení asociativních vztahů přirozeného jazyka Metoda řešení synonymie jazyka
Synonymií rozumíme možnost pojmenovat určitý jev několika jazykovými výrazy. Při vyhledávání se synonymie projevuje tím, že při zadání jednoho výrazu nejsou vyhledány výrazy významově shodné (či podobné), ale tvarem rozdílné. Jedním způsobem řešení je dodání tezauru obsahově podobných výrazů.
Některé systémy usilují o řešení obou problémových stránek jazyka. To znamená, že řeší jak vzdálenostní, tak asociativní vztahy dotazu, aby je mohly aplikovat při hledání v textu. Takovým systémem je např. Oingo. Aplikace znalostí z kognitivní vědy
K hlubšímu porozumění dotazu a tím i větší pravděpodobnosti nalezení obsahově podobného textu nestačí žádná z předchozích metod.
Ani nejdokonalejší syntaktický či sémantický analyzátor nedokáže tlumočit příjemci, co je ve sdělení kromě lingvistických aspektů ukryto v pragmatické úrovni, tzn. ve způsobu, jak interpretují obsah sdělení ti, kterým bezprostředně patří.
Kromě významu slov, vět a vyšších celků přináší text to, čemu dá říkat smysl textu. Ten není vázán na význam jednotlivých slov a nelze ho proto lingvistickými prostředky postihnout. Určité řešení nabízí kognitivní vědy, které se snaží uplatnit při řešení algoritmů přístupy z psychologie, poznatky o mozku apod.
Metoda filtrování s využitím kumulované inteligence uživatelů informačního systému
Jednou z realizovatelných cest k dosažení vyšší relevance vyhledávání při práci s rozsáhlými texty je využití kolektivní inteligence ukryté u samotných uživatelů a odvoditelné z jejich (dlouhodobě sledovaného) informačního chování. S využitím alternativních vyhledávacích strategií a rychlých systémů představují tyto přístupy spolehlivou pomůcku. Protože doslova zúžují proud přicházejících informací, označují se zpravidla jako filtrační systémy.Zatímco podstatou kontaktu WWW sítě s uživatelem je dodání dokumentu na konkrétní adresu a následné úplné zapomenutí uživatelova požadavku, filtrační systémy naopak informace o uživatelově informační potřebě soustřeďují, analyzují a využívají těchto znalostí k přesnějšímu vyhledávání.
Filtrační systémy jsou jakýmisi knihovnami naruby. Zatímco v klasické knihovně hledají uživatelé dokumenty, filtrační systémy hledají k soustředěným dokumentům uživatele. Příkladem jsou např. systémy
Systém Wisewire obsahuje následující subsystémy:
Dokumentační subsystém
Soustřeďuje dokumenty ze sítě WWW, FTP apod.
Filtrační server má následující strukturu:
- subsystém konceptualizace – uskutečňuje jakousi prvotní autoindexaci. Rozdělí dokumenty podle výskytů klíčových slov, jmen autorů, typů zdrojů, data vzniku apod
- prvotní filtr – odstraní dokumenty, které neodpovídají požadavkům.
- subsystém kategorizace – identifikuje dokumenty na základě hrubších kategorií vytvořených na základě uživatelských potřeb. Jeho činnost kontroluje samoučící se subsystém,
- samoučící se subsystém - přiřazuje zjištěným jednotkám údaj o jejich relevanci vzhledem k potenciálním uživatelům,
- subsystém zájmové skupiny – vrstva, která soustřeďuje dokumenty do skupin podle vytipovaných zájmových skupin,
- subsystém personalizace – upřesňuje strukturu vyhledaných dokumentů podle jemnějších individuálních hledisek,
- subsystém skupinového hodnocení – vrstva kompilující hodnocení dokumentů všech uživatelů (soustředěné v samoučícím subsystému), analyzuje zjištěné údaje, aby z nich vytvořila rozpoznatelné vzorce, na jejichž základě je systém schopen doporučit dokument ohodnocený jednou skupinou uživatelů jiným uživatelům.
Jiný přístup k filtraci představuje systém Letizia z Massachussetts Institute of technology, Cambridge, autora H. Liebermana.
Tento systém lze charakterizovat jako inteligentního asistenta, pomocníka uživatele při práci s WWW. Uživatel prostě pracuje např. s obvyklými vyhledávacími stroji a Letizia pracuje souběžně s ním a to tak, že na základě analýzy formulace dotazu a celkového uživatelského chování anticipuje jeho možné informační chování a volí alternativní vyhledávací strategie a rozmanitější cesty k uspokojení požadavku. Proti klasickým znalostním systémům, které obsahují zpravidla predefinované struktury, vytváří Letizie své závěry teprve v interakci s uživateli a výsledky jejího průzkumu sítě jsou proto rychlejší a poskytují relevantnější výběry než běžné vyhledávací stroje.
Systém využívající k porozumění textu obsahových kategoerií
Tyto systémy představují pokusy o vytvoření algoritmu pro extrahování (anotování, referování).
V době exponenciálního růstu informací klesá naděje, že by jediný člověk mohl prostudovat všechny materiály, i když je z velice mladého úzkého oboru. Významným úkolem, který před výzkumnými pracovníky stojí, není proto ani tak vyřešení dokonalého algoritmu vyhledávání, jako vyřešení problému porozumění textu a dosažení schopnosti jeho redukce na minimum, tedy otázka automatického referování, anotování, komprimace, extrahování. Stav řešení tohoto problému je dnes stále ještě na počátku. V našem textu si všímáme alespoň některých náznaků vývoje.
Algoritmizace procesu porozumění textu a jeho následná automatická komprimace či interpretace naráží na problémy spojené se složitostí přirozeného jazyka. Metody redukce textu se liší dle požadavků kladených na výsledek zhuštění.
Jedním, ze systémů automatického zpracování a komprimace obsahu, s nímž se můžete seznámit na Internetu je: Intelligent Miner for text
Systém není rovněž určen pro odborníky exaktních věd, ale má sloužit jako pomůcka ve sféře marketingu při rozhodování, zda vyhledané texty mají určitou informační hodnotu či nikoliv. Má tedy funkci anotace, na jejímž základě má uživatel možnost se rozhodnout, zda signalizovanému textu věnovat pozornost. Systém má následující strukturu:
Cluster neboli shluk lze definovat jako množinu dokumentů, jejíž prvky jsou vzájemně podobnější než prvky ostatních množin dokumentů.
Tento systém poskytuje informace o obsahu větší skupiny dokumentů. Identifikuje latentní obsah této skupiny, seskupuje obsahově podobné dokumenty a rovněž identifikuje dokumenty duplicitní. K měření podobnosti používá sémantickou analýzu. Výsledky shlukové analýzy mají pro konkrétního uživatele i praktické důsledky. Ocitá-li se vaše stránka v příliš velkém shluku, může to znamenat, že nemá příliš jedinečné identifikační znaky a že by se měla více diferencovat. Můžete rovněž snadno identifikovat dokumenty formálně i obsahově shodné a odhalit tak duplikáty nebo jim předejít.
Z popisu algoritmu je zřejmé, že inteligence řešení, třebaže se jedná o systémy dlouhodobě ověřované, naráží na omezení a hranice, které žádný dosavadní systém nedokáže překročit. Problematika faktografických systémů
Faktografické systémy narážejí ještě na větší problémy, protože od nich chceme, aby na náš dotaz odpověděly nejen odkazem na text, obsahující hledanou informaci, ale očekáváme na dotaz přímou a pokud možno stručnou odpověď.
Testované faktografické systémy
Předem je nutné říci, že při testování jsem dospěl k dospěl k závěru, že dokumentografické vyhledávací systémy mají inteligentnější programové zabezpečení než systémy faktografické.
Přesto můžeme i v této oblasti identifikovat zajímavé projekty. Uvedeme charakteristiky, které umožňují rozdělit je do několika skupin:
Kategorizace faktografických systémů:
- Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) s podporou složitějších lingvistických algoritmů. Na jednoduše formulovaný dotaz formulují stručnou odpověď. Ve složitějších případech nabídnou odkaz na relevantní dokument (Askjeeves, Electric Library).
- Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) bez podpory složitějších lingvistických algoritmů. Nedokáží zpravidla samy formulovat odpověď, pouze odkazovat na zdroj informace. (Manifold).
- Systémy vyhledávají pouze jasně identifikovatelné informace v textu např. E-maily, URL, vlastní jména (Ratchet).
Charakteristika systémů:
- Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) s podporou složitějších lingvistických algoritmů
Askjeeves
Téma: universální databáze
Přijímá dotaz v přirozeném jazyku. Databáze obsahuje 6 mil. záznamů. Odpověď na dotaz je rychlá, výstupy stručné. Obsahuje 4 subsystémy:
- Subsystém zpracování dotazu - podrobí dotaz v přirozeném jazyku sémantické a syntaktické analýze, aby porozuměl jeho gramatické a významové struktuře, vytvoří z dotazu významové segmenty (question template) a těmi prohledává databázi.
- Subsystém zpracování odpovědi – připraví výstup po formální i obsahové stránce tak, aby vyhovoval zadanému požadavku.
- Znalostní databáze – byla vytvářena týmem pracovníků s použitím inteligentního nástroje Jeeves Research Assistent (JAR). Pracuje na bázi sémantické sítě umožňující provázat segmenty dotazu s maximálním počtem relevantních informací.
- Metavyhledávací subsystém – zpracovává odpovědi pěti vyhledávacích subsystémů do přehledných výstupů nabízejících širokou škálu odpovědí.
Electric library (placená služba)
Téma: Universální databáze
Přijímá dotaz v přirozeném jazyku.
Umožňuje specifikovat dotaz, což má vliv na rychlost a celkovou úspěšnost vyhledávání:
- specifikace informačního zdroje
- specifikace informačního obsahu (zdraví, školství, obchod, literatura apod.)
- časové ohraničení prohledávaných dokumentů
- specifikace bibliografických informací (autor, název dokumentu apod.)
Dotaz je též možno zadat s využitím booleovských výrazů.
Electric library využívá kromě rozsáhlé vlastní databáze i řady encyklopedií a jiných zdrojů.
Systém používá jednoduchý algoritmus pro lingvistické zpracování dotazu. Proto je účelné formulovat dotaz pečlivě (omezit např. počet nevýznamových slov, klást důraz spíše na substantivní výrazy apod.).
Při vyhledávání lze vhodnou specifikací dotazu ovlivnit kvalitu vyhledávání. Např. volbou low/high (power setting) lze dosáhnout zúžení či rozšíření výběrů.
- Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) bez podpory složitějších lingvistických algoritmů
Manifold
Téma: oblast filmu
Poskytuje specifické informace z oblasti filmu. Nabízí vstupní formulář pro následující vstupy: název filmu, rok vydání, žánr, producent, herec apod.
Po zadání otázky systém vyhledá relevantní zdroje a zkombinuje informace z většího počtu zdrojů do jednoduché odpovědi. Výstupem jsou odkazy na zdroje, z nichž zpravidla nalezne odpověď na svůj dotaz.
- Systémy vyhledávají pouze jasně identifikovatelné informace v textu
Nevyhledává odpovědi jen na jednorázové dotazy, ale průběžně na predefinovaná zadání. Dokáže vyhledat jen jednoznačně identifikovatelné řetězce slov např. E-mail, URL, vlastní jména apod.)
Závěr
Implementace větší míry inteligence do algoritmů informačních systémů naráží na hranice poznatků, které o problematice jazyka, porozumění textu a procesů, které se při užívání jazyka nebo vnímání textu známe.Některé směry poznání ústí v názor, že nikdy nebudeme schopni naučit stroje tomu, čemu, neznámo proč, my rozumíme. Tvrdí, že toto poznání se nedá vtělit do jiného materiálu, než skýtá naše biologická struktura.
Jiné výzkumy nejsou tak skeptické a domnívají se, že dnešní nedostatečnost je jen věcí úrovně našeho poznání.
Tempo, jakým se poznání rozvíjí, spíše svědčí pro druhý názor. Dynamika, s jakou si člověk likviduje podmínky pro svoji biologickou podstatu by nahrávala názoru prvnímu.
S jistotou lze však tvrdit, že proces přechodu od informací ke znalostem bude možné automatizovat teprve tehdy, až se schopnost software počítačů do značné míry přiblíží schopnostem mozku člověka.
- Aplikace lingvistických poznatků (metody silmulující vlasnosti přirozeného jazyka)