Zdokonalení správy textových, grafických a audiálních souborů jako předpoklad ...
Nový, kvalitativně vyšší stupeň informační činnosti si klade za cíl redukovat přemíru dostupných informací jejich transformací ve znalosti. Nebudu znovu opakovat, že pojmy "fakta", "data", "informace", "poznatky", "znalosti" nejsou dosud přesně definovány ani odlišeny, a proto i používané algoritmy a teorie nesou stopy této nevyjasněnosti. Na posledním 5. ročníku konference INFORUM jsme měli možnost nahlédnout do vývoje technologií inteligentních systémů práce s informacemi. Trend získávání poznatků, znalostí z datových (textových i numerických) souborů dostává název dolování dat (data mining).
Již na první pohled je sporné, zda se tento nový pojem hodí stejnou měrou na pojmenování činností tak rozdílných, jakými jsou analýza numerických či textových souborů. V takovém případě by totiž systémy pro statistické výpočty (chí-kvadrátu, průměru, směrodatné odchylky, korelace apod.) spadaly do kategorie data mining, třebaže co do obtížnosti a charakteru tvorby algoritmu a obtížnosti programového zabezpečení, jsou tyto systémy ve srovnání se systémem analýzy obsahu textových souborů nesrovnatelně méně náročné. Rozdíl v náročnosti algoritmického zpracování je na první pohled zřejmý již v dostupnosti a rozmanitosti sortimentu software. Zatímco systémy zpracování numerických dat dosahují vysoké dokonalosti a rozmanitosti, a jsou i cenově vcelku dostupné, systémy analýzy textů se zaměřují jen na intelektuálně méně náročné operace s texty a i tak je jejich pořízení zpravidla velmi nákladné. Některé funkce, které se zdály být v době nástupu počítačů slibně řešitelné (indexace, komprimace apod.) se i přes stále rostoucí možnosti hardware realizují jen s nízkou efektivitou. Největší podíl energie je zaměřen převážně na řešení algoritmů vyhledávání.
Jednou z hlavních příčin zmíněné recese jsou obtížně překonatelné obtíže spojené se strukturou přirozeného jazyka, při jehož analýze se prozatím nepodařilo pokročit od vágního významu lexikální struktury k pochopení významu větných a vyšších nadvětných celků. Stručnou charakteristiku těchto systémů jsem uvedl v článcích o faktografických a dokumentografických (1) informačních systémech (1).
Z těchto důvodů bych chtěl obrátit pozornost na řešení systémů, které pracují o úroveň níže než vyhledávací systémy a mají blíže k současným editorům, které však převyšují nesrovnatelně vyšší schopností manipulovat s daty. Pro příklad jsem zvolil následující systémy:
TEXTANALYST
HyperRESEARCH
ATLAS.ti
Předností těchto systémů je schopnost velice široce pojaté správy dat:
- popis textových, grafických a audiálních dat
- indexování, označování a obsahové provázání dat
Pro ilustraci uvedu stručnou charakteristiku systému ATLAS.ti. Jeho úloha je prostá.
- Vytvářet ze všech dokumentů, klíčových slov a odkazů tzv. hermeneutickou jednotku, jejímž cílem je vzájemně provázat identifikovatelné prvky datových souborů,
- usnadnit vyhledávání, segmentaci, spojování prvků do rodin dle podobnosti, porovnání textů. Vytvářet předpoklady pro aplikace dalších statistických a lingvistických metod,
- podporovat tvorbu WWW stránek.
Pojem "hermeneutická jednotka" již sám mnohé napovídá o cíli systému. Hermeneutika je věda, usilující o pravdivé, věrohodné, hlubší pochopení textů. Zabývá se tedy procesem interpretace. Systém Atlas.ti si neklade za cíl činnost tak náročnou jako je interpretace textu, ale snaží se poskytnout nástroje, které strukturují nejasné vícevýznamové prvky textu jasnější charakteristikou, prováží obsahově příbuzné části text vazbami a spojí tyto prvky do vyšší jasně identifikovatelné kategorie - hermeneutické jednotky. Systém pracuje ve dvou modech: textovém a pojmovém.
Textový režim realizuje segmentování datových souborů na dílčí obsahové úseky, označování textů, obrázků a zvuků. Uvedeným prvkům lze přiřadit vlastní indexy, anotace, komentáře. Pojmový režim spojuje vytvořené segmenty a znaky do sémantických sítí a umožňuje tak jejich vizualizaci a přehlednost.
Tyto činnosti jsou předpokladem pro rychlé a bezeztrátové vyhledávání v datových bázích.
Schéma postupu od prvků textu k hermeneutické jednotce:
Surovinou je primární soubor, kterému se přiřadí seriálové číslo jako jeho identifikační znak.Prvky systému představují následující jednotky:
Quotations - segmenty textu obsahující relevantní informace z textu
Codes - označení přiřazená segmentům
Families - propojení prvků označených kódy (textů, obrázků, zvuků) do sémantické sítě
K vytvoření hermeneutické jednotky slouží následující editory:
Editor pro tvorbu hermeneutické jednotky
Sestává z levého a pravého okna. V levém okně je uložen text, obrázek,zvukový soubor. V pravém okně se umisťují výše zmíněné prvky hermeneutické jednotky, představující jakási klíčová slova umožňující charakterizovat segment textu, obrázek či jeho část a zvuk, k němuž se vztahují.Network editor, umožňující propojit klíčová slova a segmenty vzájemnými vazbami.
Relation editor - poskytuje vazebné operátory pro network editor. Např. is part of, is cause of, is property of.
Kódování obrázků a zvuků
Práce s obrázky a zvuky je podobná práci s texty. Tažením označíme část obrázku či zvukový úsek a označenému výseku přiřadíme klíčové slovo. Díky této vlastnosti je systém prakticky využitelný v řadě oborů, kde dochází k provázání těchto oblastí: v medicíně, výtvarném umění, architektuře, grafologii, kriminologii apod.Vyhledávání
Systém nabízí při vyhledávání následující možnosti: - operátory AND, OR, NOT, XOR
- sémantické operátory
- vytvořená klíčová slova či jejich subřetezce
- operátory analyzující sousedství klíčových slov
- kombinace výše uvedené nabídky
Závěr
Cílem systému ATLAS.ti je racionalizovat práci s datovými soubory obsahujícími texty, obrázky či zvuky, vizualizovat jejich strukturu a zefektivit tak jejich vyhledávání jako předpoklad pro obsahová zobecnění či tvorbu teorií. Systém není přirozeně dokonalý. Neřešena zůstává problematika synonymie, homonymie, akceptování významu větných a nadvětných celků. K řešení těchto nedostatků však poskytuje systém vynalézavé pomůcky. V každém případě je však snaha vnést řád do struktury datových souborů jednotlivého uživatele či instituce, předtím, než se dostanou do sítě WWW jedním z předpokladů k dosažení vyšší úrovně jejich dalšího využívání.Bibliografie:
JONÁK, Z. Zbraně proti entropii Internetu. Computer World. Roč. 10, (1999), č. 7, s. 4-7.