Současný stav a trendy automatické indexace dokumentů
OBSAH
ÚVOD
Terminologické poznámky
Automatická indexace vs intelektuální indexace
Kontexty a souvislosti
TYPY A TECHNIKY AUTOMATICKÉ INDEXACE
Automatická extrakce
Automatické přiřazování
CELKOVÉ HODNOCENÍ SOUČASNÝCH VÝSLEDKŮ A TRENDŮ AUTOMATICKÉ INDEXACE
PRAKTICKÉ ASPEKTY IMPLEMENTACE AUTOMATICKÉ INDEXACE
PŘÍKLADY SYSTÉMŮ AUTOMATICKÉ INDEXACE
Media On Line Project
NASA MAI Tool
Automatická indexace sněmovních tisků v KPS PČR
AUTOMATIZOVANÉ ZPRACOVÁNÍ TEXTU V ČR : HISTORICKO-BIBLIOGRAFICKÝ EXKURZ
Stručný souhrn
Popis vybraných českých systémů pro automatizované zpracování textu
Přehledová bibliografie automatizovaného zpracování textu v ČR
POZNÁMKY
REFERENCE
Úvod
Terminologické poznámky
Vzhledem k tomu, že se domácí odborná literatura automatickou indexací systematicky nezabývá a neexistuje proto ustálená terminologie, u vybraných termínů uvádíme jejich anglické ekvivalenty, aby zůstala zachována vazba na odbornou terminologii užívanou v cizojazyčných textech.
Většina současných systémů určených pro automatickou indexaci (vč. komerčních) nepracuje plně automaticky, nýbrž funguje jako automatizovaná podpora intelektuální indexace (intellectual indexing, human indexing). [1] V zahraniční literatuře se proto v těchto kontextech používá termín machine-aided indexing, popř. computer-aided indexing, který lze přeložit jako indexace s podporou počítače, popř. poloautomatická indexace. V dalším textu je však pro jednoduchost používán výhradně termín automatická indexace.
Automatická indexace vs intelektuální indexace
Intelektuální indexace je časově i intelektuálně náročný proces, který ovlivňuje řada objektivních i subjektivních faktorů (blíže viz Anderson a Pérez-Carballo, 2001a:238-252, Lancaster, 1998:65,79-81, Bonura, 1994:12, Schwarz, 2001a). To jsou důvody, které hovoří pro využití automatické indexace, ale zároveň představují i její limity: metody automatické indexace nepřinášejí zatím dostatečné výsledky proto, že automatické porozumění textu je v podstatě v počátcích a jsou používány metody, který celý proces indexace podstatně zjednodušují a tím ve srovnání s intelektuální indexací snižují kvalitu výsledků, nehledě na časovou a finanční náročnost vývoje těchto technologií. Na druhou stranu, automatická indexace umožňuje odstranit subjektivní faktory intelektuální indexace, které mají vliv především na konzistenci indexace, a podstatně snížit časovou náročnost indexačního procesu.
V současnosti je výzkum a vývoj systémů automatické indexace ve fázi, kdy nelze hovořit o plně automatické indexaci. Technologie automatické indexace jsou většinou implementovány jako hybridní systémy, ve kterých se uplatňuje automatická indexace coby automatizovaná podpora intelektuální činnosti indexátora. Základní princip takových hybridních systémů spočívá v tom, že pomocí automatizované indexace je připraven seznam výrazů, které jsou potenciálními kandidáty pro výběr indexačních termínů. Tento výběr v závěrečné fázi indexace provádí indexátor. Jak ukazují některé výzkumy, tento způsob indexace může nejen zrychlit a zjednodušit indexační proces, ale i zkvalitnit jeho výsledky, které při vyhledávání pozitivně ovlivňují především míru přesnosti (precision rate).
Automatická indexace musí řešit řadu problémů, jež z hlediska intelektuální indexace představují běžné myšlenkové pochody. Jedná se např. o tyto skutečnosti (viz též Moens, 2000:7-10, Bonura, 1994:150-151):
- text obsahuje pojmy, které nejsou explicitně vyjádřeny
- text obsahuje slova, která nejsou z hlediska obsahu dokumentu relevantní
- text obsahuje nepřímé odkazy na jiné části téhož textu nebo na jiné texty
- řada slov je synonymních nebo naopak homonymních
- význam slov se mění v čase nebo mezi jednotlivými dokumenty
- text v přirozeném jazyce obsahuje slova v různých tvarech daných mluvnickými kategoriemi (číslem, rodem, flexí apod.).
Všechny tyto a další problémy je třeba v rámci automatické indexace pomocí poměrně sofistikovaných metod řešit, pokud se mají její výsledky kvalitou alespoň částečně přiblížit intelektuální indexaci. Je třeba podotknout, že automatická a intelektuální indexace se sice v současném pojetí chápou jako metodicky odlišné, z hlediska výsledku (indexace a vyhledávání) však navzájem komplementární postupy, jejichž společnou implementací se dosahuje lepších výsledků než použitím pouze jedné z nich. Aktuálním stavem vztahu automatické a intelektuální indexace se nejnověji zabývá rozsáhlá komparativní studie Anderson a Pérez-Carballo (2001a a 2001b) a sborník Fidel a další (1994); důležitost intelektuální indexace akcentuje pomocí konkrétních příkladů Tenopir (1999), kritický a skeptický přístup k automatické indexaci zaujímá Bloomfield (2001:71-73).
Kontexty a souvislosti
Automatická indexace patří do širší oblasti automatizovaného (strojového) zpracování textu (text processing), resp. obecně do oblasti zpracování přirozeného jazyka (natural language processing) (blíže viz Salton, 1989, Lancaster, 1998:222-250). Při vývoji systémů automatické indexace se proto za pomocí poznatků z různých oborů (lingvistika, statistika, matematická lingvistika, kognitivní věda, informační věda, výpočetní technika) řeší problémy spojené se strukturou a reprezentací textu (např. otázky intertextuality, formálních a sémantických struktur textu, kvantitativních charakteristik textu), s percepcí textu a jeho porozumění čtenářem (modely perceptivních typů) nebo problémy související s vlastnostmi přirozeného jazyka, jako jsou např. otázky synonymie, homonymie, polysémie, morfologie, syntaxe, frazeologie apod. [2]
Automatická indexace také úzce souvisí s vyhledáváním informací (information retrieval) (viz např. Moens, 2000:16-22). Na jedné straně kvalita automatické indexace výrazně ovlivňuje kvalitu vyhledávání, na druhé straně jsou metody automatické indexace a vyhledávání informací z hlediska požadovaného výsledku - získání relevantních dokumentů na výstupu z informačního systému - zástupné; někteří autoři např. považují vyhledávání v plném textu dokumentu za nejjednodušší formu automatické indexace (viz např. Anderson a Pérez-Carballo, 2001b:258 nebo Moens, 2000:24). Podstatný je také trend směřující k vývoji takových vyhledávacích metod, které budou za pomoci technologií umělé inteligence pracovat přímo s plným textem a k automatické indexaci v původním slova smyslu nebude vůbec docházet; dojde k posunu od systémů založených na externí bázi pojmů či znalostí (knowledge-based systems) k systémům založených přímo na zpracování plného textu dokumentů (text-based systems).
Automatická indexace má také těsnou vazbu na automatickou klasifikaci (Lancaster, 1998:261-267), automatické shlukování (clustering) (Anderson a Pérez-Carballo, 2001b:265-266) a automatické abstrahování (abstracting) dokumentů (Moens, 2000:133-154, Lancaster, 1998:267-272) - o těchto tématech se často hovoří společně a někdy se také zaměňují - v případě indexace obecnými třídami se mluví spíše o automatické klasifikaci než automatické indexaci. Prolínají se také problematiky automatického shlukování a klasifikace, protože obě mají stejný účel - rozčlenit dokumenty do základních tříd; každá z metod však používá odlišných postupů. Automatická indexace také bezprostředně souvisí s automatickou tvorbou tezauru, příp. vytvářením sémantických sítí nebo znalostních bází, které jsou nezbytným předpokladem pro odpovídající funkčnost metod založených na automatickém přiřazování (viz dále).
Typy a techniky automatické indexace
Automatická indexace se běžně rozděluje na dva základní typy:
- automatická extrakce je automatická indexace založená na extrakci indexačních termínů přímo z plného textu dokumentu (využívá se tak pouze přirozeného jazyka) (automatic extraction indexing, selection of natural language index terms). Automatická extrakce se také někdy označuje jako slovní indexace.
- automatické přiřazování je automatická indexace založená na určování indexačních termínů z řízeného slovníku nebo znalostní báze na základě jejich srovnání s výrazy z plného textu dokumentu (automatic assignment indexing, assignment of controlled language index terms). Automatické přiřazování se také někdy označuje jako pojmová indexace.
Automatická extrakce je jednodušší a snáze programovatelnou metodou, v současnosti na jejím základě pracuje větší část funkčních systémů automatické indexace.
Automatické přiřazování je z hlediska praktické aplikace podstatně náročnější, funkční systémy rovněž existují, ale nejsou zcela běžné a často nepřinášejí žádoucí výsledky. V rámci automatického přiřazování jsou aplikovány i metody automatické extrakce, které však slouží pouze jako dílčí podklady pro další zpracování.
Jako systémy automatické indexace jsou také někdy nesprávně označovány systémy umožňující automatizaci takových standardních procedur, jako je kontrola chyb indexátora (např. zda nezvolil nesprávnou kombinaci termínů), automatický návrh preferovaného termínu místo termínu nepreferovaného, poskytnutí informace, jak byl indexační termín použit, popř. jak vypadá předchozí indexace vybraných dokumentů apod. V takových případech nelze mluvit o automatické indexaci, ale pouze o automatizované indexaci (computer-assisted indexing, resp. machine-assisted indexing).
Automatická extrakce
Účelem automatické extrakce je vybrat přímo z textu dokumentu takové termíny, které vyjadřují jeho obsah. Protože pro indexaci jsou vhodná pouze některá slova a sousloví z textu dokumentu, byla vyvinuta řada především statistických a matematicko-lingvistických metod, jak tyto relevantní termíny v textu identifikovat a extrahovat je z něj.
Standardní postup při extrakci termínů se skládá z několika procedur, níže uvedený přehled obsahuje základní z nich s tím, že vybrané procedury a použité metody pro jejich realizaci jsou popsány podrobněji. Konkrétní aplikace mohou mít implementovány pouze některé z uvedených procedur.
Podrobný popis a hodnocení automatické extrakce lze také nalézt v Moens (2000:77-102), Lancaster (1998:253-256,292-297), Anderson a Pérez-Carballo (2001b:256-266), Fidel a další (1994).
Postup při extrakci termínů
- lexikální analýza (lexical analysis) - identifikace jednotlivých slov a sousloví v textu dokumentu; někdy se identifikace sousloví uvádí vzhledem ke své složitosti jako samostatná procedura
- odstranění nevýznamových a nespecifických slov - provádí se pomocí předem připraveného negativního slovníku; někdy se tato procedura považuje za součást lexikální analýzy
- lematizace (stemming) - redukce slov na jejich základní tvary, tj. kmen nebo kořen [3] opakem tohoto procesu (např. při vyhledávání) je derivace, kdy se k základnímu tvaru slova generují jeho inflexní tvary
- srovnání slov, resp. jejich kmenů nebo kořenů s termíny řízeného slovníku - jedná se o jednoduché srovnání výrazu vybraného z textu s termínem řízeného slovníku bez ohledu na strukturu řízeného slovníku; ta bývá zohledňována pouze při automatickém přiřazování
- vážení neboli stanovení vah termínů (weighting) - nejčastěji se provádí na základě frekvenčních metod
Lexikální analýza
Jednotlivá slova jsou v textu nejčastěji rozpoznávána pomocí mezer [4], i když u některých typů slov není tato identifikace zcela jednoduchá nebo jednoznačná. Obtížnější je např. určování zkratek, v nichž se tečka musí odlišit od větné tečky, problém představují také výrazy se spojovníkem, u kterých je třeba rozhodnout, zda je chápat jako jedno slovo nebo dvě samostatná slova. Samostatný problém při identifikaci slov představují také číslice, u kterých je třeba stanovit, zda budou zpracovány jako samostatná slova nebo závislé prvky (např. 1. místo) nebo zda budou z analýzy a dalšího zpracování zcela vypuštěny.
Podstatně složitější je identifikace sousloví, které jsou z hlediska sémantické nosnosti a selektivní síly [5] podstatně významnější než jednotlivá slova. Pro identifikaci sousloví byla vyvinuta řada metod, zde uvádíme dvě nejobvyklejší:
- statistická identifikace sousloví - u slov, která se v textu, popř. v celé databázi vyskytují často společně, lze předpokládat, že se jedná o sousloví. Při statistické analýze se vychází z frekvence výskytu daného sousloví (záleží na pořadí slov), současného výskytu slov (nezáleží na pořadí slov) nebo vzdálenosti slov v textu, přičemž tato vzdálenost může být určena buď počtem slov mezi slovy předpokládaného sousloví nebo může být sledován jejich současný výskyt ve větě, odstavci nebo jiné ucelené části textu. Vzhledem k tomu, že častý současný výskyt dvou slov ještě nemusí znamenat, že se jedná o sousloví, není tato metoda bezezbytku úspěšná.
- syntaktická identifikace sousloví - identifikace sousloví probíhá jako v předchozím případě s tím, že mezi slovy v potenciálním sousloví je pomocí různých metod analyzována jejich syntaktická složka. Často se v tomto případě využívá existujících slovníků sousloví, popř. řízených slovníků.
Součástí identifikace sousloví bývá i normalizace jejich formy. Sousloví se v textu mohou vyskytovat v různých syntaktických (např. indexace dokumentů x indexovaný dokument), lexikálních (např. intelektuální indexace x manuální indexace) nebo morfologických (např. pravidla indexace x indexační pravidla) variantách, které je nezbytné pro potřeby indexace sjednotit. Používá se následujících metod:
- normalizace formy sousloví pomocí slovníku variant sousloví [6] - jedná se o jednoduchou metodu, která je však většinou z důvodu omezeného rozsahu slovníku vhodná pouze v rámci dílčího oboru
- vypuštění pomocných slovních druhů (předložek, spojek, příslovcí apod.) ze sousloví a zanedbání pořadí zbylých složek sousloví
- syntaktická analýza sousloví v kombinaci s použitím kmene nebo kořene jednotlivých slov sousloví
Odstranění nevýznamových a nespecifických slov pomocí negativního slovníku
Nevýznamová slova jsou funkční části textu, které nenesou žádný význam (např. spojky, předložky, částice, mluvnické členy apod.), nespecifickými slovy rozumíme slova či sousloví, která se vyskytují ve většině dokumentů a proto mají z hlediska vyhledávání minimální selektivní sílu. Obě tyto kategorie slov je třeba pomocí negativního slovníku odstranit, aby do výsledku nevnášely šum. Negativní slovník lze vytvořit několika způsoby:
- volbou druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice apod.)
- volbou slov s vysokou absolutní nebo relativní frekvencí výskytu v textu dokumentu; vychází se z empiricky ověřeného předpokladu, že nevýznamová a nespecifická slova mají podstatně vyšší frekvenci v textu než významová slova. Nevýhoda metody spočívá v tom, že mezi frekventovanými slovy se může vyskytovat i důležitý indexační termín
- volbou krátkých slov; vychází se z předpokladu, že nevýznamová slova jsou krátká, v tomto případě je ovšem třeba použít samostatný anti-negativní slovník, ve kterém budou obsaženy důležité krátké indexační termíny
Lematizace
Protože se slova a sousloví vyskytují v textu v různých tvarech daných jejich číslem, flexí či jinými gramatickými kategoriemi, je žádoucí slova redukovat na jejich základy tvary, resp. kmeny nebo kořeny.
Lematizaci lze provádět pomocí:
- slovníku kmenů nebo kořenů; výhodou této metody je minimální chybovost, nevýhodou rozsáhlost slovníku a jeho případné omezení na specifický obor.
- odstranění afixů, tzn. sufixů (přípon) a prefixů (předpon). Jedná se o nejčastěji užívanou metodu s tím, že příslušný algoritmus je obvykle schopen zohledňovat i nepravidelnou flexi (např. hláskové změny - soli x sůl). Afixy mohou být odstraňovány na základě seznamů sufixů a prefixů nebo na základě pravidel, podle kterých jsou konkrétní afixy generovány.
- statisticky na základě variety po sobě následujících písmen ve slově (letter successor variety stemmers), kdy se pomocí frekvence jednotlivých shluků písmen stanovuje, zda se jedná o prefix, kořen nebo sufix. Tato metoda je nezávislá na jazyce a dokáže pružně zohledňovat nové dokumenty v databázi, nedokáže však rozlišit inflexní a derivační (slovotvorné) afixy.
Program, kterým se provádí lematizace, se nazývá lematizátor (stemmer).
Vážení
Slova z textu dokumentu mají různou důležitost pro reprezentaci jeho obsahu, proto je nutné stanovit relativní hodnotu zohledňující význam slova a podle této hodnoty uspořádat výsledný seznam indexačních termínů. Obecně hovoříme o selektivní síle indexačního termínu, která vyjadřuje schopnost termínu vyhledat z databáze množinu dokumentů, která se bude lišit od množin vyhledaných pomocí jiných termínů. Termín, který vyhledá všechny nebo téměř všechny dokumenty z databáze, má minimální selektivní sílu (definice selektivní síly je uvedena níže).
Termíny lze vážit na základě těchto základních parametrů:
- samotný termín - pro váhu termínu mohou být důležité vlastní charakteristiky termínu, např. jeho slovní druh - z hlediska sémantické nosnosti jsou důležitější substantiva a adjektiva, ostatní slovní druhy získávají menší váhy nebo jsou zařazeny do negativního slovníku (viz výše)
- text - roli ve váze termínu může hrát např. délka textu a počet různých termínů v textu
- vztah termínu a textu - pro vážení jsou důležité tyto faktory:
- frekvence termínu v textu - předpokládá se, že frekventovanější termíny jsou relevantní indexační termíny; to se netýká nevýznamových a nespecifických slov (viz výše)
- umístění termínu ve specifické části textu, např. v názvu, abstraktu, resumé, první a poslední větě odstavce, nadpisech kapitol, grafů, tabulek apod. Tato metoda ovšem vyžaduje formální strukturaci textu dokumentu, obvykle pomocí vybraného značkovacího jazyka (např. SGML, HTML, XML apod.)
- kontext termínu
- vztah termínu a všech dokumentů v databázi - určuje se např. frekvence výskytu termínu v databázi
Na základě výše uvedených základních parametrů lze stanovit dílčí frekvenční parametry váhových funkcí:
N počet dokumentů v databázi
f(t, T) frekvence termínu t v textu T
f(T) počet všech termínů v textu T
k(T) počet všech různých termínů v textu T
n(t) počet dokumentů, které jsou označeny selekčním termínem t
F(t) frekvence termínu t v celé databázi
VYBRANÉ VÁHOVÉ FUNKCE
Selektivní síla - nejedná se o standardní váhovou funkci, selektivní síla slouží pro stanovení míry, do jaké jsou schopny indexační termíny efektivně vyhledávat dokumenty. Nízká hodnota znamená malou selektivní sílu, vysoká hodnota znamená vysokou selektivní sílu.
((t)= ( (N-n(t)) / N )
Prostá frekvence - váží termíny pouze s ohledem na jejich absolutní frekvenci v dokumentu; nedokáže dobře rozlišovat termíny s ohledem na jejich selektivní sílu.
w(t, T) = f(t, T)
Logaritmizovaná frekvence - zohledňuje fakt, že x-násobný výskyt termínu dokumentu nemusí znamenat x-násobnou důležitost pro obsah dokumentu a redukuje frekvenci na jednotlivé řády
w(t, T) = log f(t, T)
Normalizovaná frekvence - eliminuje délku textu dokumentu. Kromě uvedeného vzorce lze normalizovanou frekvenci určit řadou dalších způsobů
w(t, T) = f(t, T) / f(T)
Relativní frekvence - zohledňuje celkový výskyt termínu v databázi. Vysoká hodnota váhy značí, že se jedná o termín s vysokou selektivní sílou, který by měl být zvolen jako indexační termín, nízká hodnota váhy znamená, že se jedná o nevýznamový nebo nespecifický termín.
w(t, T) = f(t, T) / F(t)Inverzní dokumentová frekvence (inverse document frekvency) - dílčí váhová funkce zohledňující selektivní sílu indexačních termínů, které již byly použity pro označení dokumentů v databázi.
w(t) = log ( N / n(t) )
Pokud je při extrakci termínů zohledněna jejich pozice ve specifické části textu (např. nadpis, abstrakt, první a poslední odstavec apod.), promítá se tato skutečnost i do výpočtu váhy, nejčastěji tím způsobem, že váha termínu vyskytujícího se v obsahově důležitější části textu (např. název) je násobena koeficientem o zvolené velikosti, kdežto váhy termínů nacházejících se v obsahově méně signifikantních částech dokumentu jsou násobeny koeficienty o nižších hodnotách. Tak se dosáhne toho, že termín z obsahově důležité části dokumentu získá relativně vyšší váhu.
Váhových funkcí existuje celá řada, jejich další typy lze nalézt v literatuře (viz např. Salton a Buckley, 1988 nebo Moens, 2000:89-97).
Hodnocení automatické extrakce
K výhodám automatické extrakce patří její relativní jednoduchost, proto je snadno použitelná ve většině současných automatizovaných informačních systémů. Teoretické i metodické modely, na kterých je automatická extrakce založena, lze snadno algoritmizovat, naprogramovat a implementovat do informačního systému. Navíc, ve srovnání s intelektuální indexací, je automatická extrakce absolutně konzistentní.
Jako podstatné omezení automatická extrakce lze chápat skutečnost, že použité metody neodpovídají postupu, jakým probíhá intelektuální indexace, která není většinou realizována jako extrakce, nýbrž jako přiřazování. Z toho důvodu automatická extrakce obecně přináší horší výsledky než intelektuální indexace a přestože na základě automatické extrakce funguje velká část současných systémů, řada z nich slouží z tohoto důvodu pouze jako automatizovaná podpora intelektuální indexace. V takovém případě pak může metoda pozitivně ovlivňovat proces a výsledky indexace; např. výzkum z poloviny 70. let 20. století prokázal, že výsledky, získané editací výstupů automatické extrakce indexátorem, přinášejí srovnatelnou úplnost a lepší přesnost než intelektuální indexace.
Takové využití automatické extrakce je reprezentováno např. systémem CAIN, který je použit pro automatizovanou podporu indexace v databázi AGREP (databáze Evropských společenství obsahující probíhající projekty z oblasti zemědělského výzkumu). Systém používá termíny z názvů, abstraktů a neřízených klíčových slov a srovnává je se dvěma tezaury (AGROVOC a CAB Thesaurus), na jejichž základě navrhuje kandidáty pro indexaci. V českém prostředí lze uvést příklad automatické indexace sněmovních tisků v Kanceláři Poslanecké sněmovny Parlamentu ČR, která je založena na použití plných textů dokumentů, identifikaci relevantních termínů pomocí tezauru EUROVOC a posouzení výsledného seznamu termínů indexátorem (podobné informace o systému viz kapitola Příklady systémů automatické indexace).
Automatické přiřazování
Systémy založené na automatickém přiřazování používají podstatně složitější statistické a matematickolingvistické metody než systémy založené na automatické extrakci; je aplikována řada postupů, které jsou doménou expertních systémů a systémů založených na umělé inteligenci, jako např. rámce, pravidla, multidimenziální prostorové modely, samoučící se algoritmy, pravděpodobnostní modely (např. lineární regresní metody, bayesovský teorém), neuronové sítě apod. Z tohoto důvodu v této kapitole uvádíme pouze obecný přehled, podrobné informace o jednotlivých technikách i s příslušným matematickým aparátem lze získat v literatuře (viz např. Moens, 2000:103-132 nebo Lancaster, 1998:256-260,292-297).Základní popis
Koncepce automatické indexace založená na automatickém přiřazování se snaží simulovat intelektuální proces indexace, který se obvykle skládá z obsahové analýzy dokumentu, identifikace termínů, jejich zařazení do pojmových tříd (s případných zobecněním) a výběru adekvátního termínu z řízeného slovníku (viz též Anderson a Pérez-Carballo, 2001a:244-252, Moens, 2000:55-58, Lancaster, 1998:8-14).
Metody založené na automatickém přiřazování mohou pracovat buď s výsledky získanými pomocí automatické extrakce nebo přímo s plným textem; v tom případě mohou rovněž využívat některých metod známých z automatické extrakce.
Předpokladem funkčnosti automatického přiřazování je existence strukturovaného řízeného slovníku, který může být implementován ve formě tezauru, sémantické sítě nebo znalostní báze. Klasické tezaury se svými jednoduchými vztahy hierarchie, asociace a ekvivalence jsou sice pro automatické přiřazování použitelné, ale často bývají pro větší efektivitu celého procesu a kvalitu výsledků obohaceny o další dílčí typy vztahů a forem lexikálních jednotek nebo jsou užívány společně s dalšími externími slovníky či znalostními bázemi. (viz např. kapitolu o systému NASA MAI Tool).
Řízený slovník užívaný při automatickém přiřazování je tvořen množinou pojmů, mezi nimiž jsou definovány explicitní vztahy. Jednotlivé pojmy jsou reprezentovány termínem a jeho profilem (pattern); profilem se rozumí souhrn charakteristik (termínů nebo jiných položek), které na různé úrovni reprezentují daný pojem (syntaktické, morfologické nebo lexikální varianty termínu) nebo se k němu vztahují na základě definovaných atributů (rododruhové vztahy, vztahy celek-část, příčina-následek apod.). Profil pojmu je pak základním prostředkem pro správné určení a přiřazení indexačního termínu [7].
Procedura automatického přiřazování probíhá obecně v těchto základních krocích:
- identifikace termínů v plném textu
- srovnání termínů s relevantními profily pojmů z řízeného slovníku
- určení indexačních termínů na základě profilu pojmů reprezentovaných termíny vybranými z textu
Zdánlivě jednoduchý postup skrývá řadu metodologických problémů, které tkví zejména ve skutečnostech, že:
- výskyt výrazu z dokumentu v profilu pojmu nemusí být dostatečným důvodem pro přiřazení daného termínu
- pojem může být v textu vyjádřen složitou kombinací termínů; určení relevantní kombinace termínů vyžaduje další poměrně složité metody
- pojem není v textu reprezentován explicitně, ale pomocí nepřímého odkazu (např. prostřednictvím zájmena odkazující na jinou část textu)
Pro řešení těchto problémů byla vyvinuta řada alternativních metod, založených např. na pravděpodobnostních modelech.
K problémům s přiřazováním termínů se při neexistenci řízeného slovníku připojuje otázka jeho konstrukce.V tomto případě sice lze uvažovat o automatické tvorbě tezauru nebo znalostní báze, která je však problematická zejména z důvodů složitosti automatické identifikace vztahů mezi pojmy. Pro tyto účely se pak vyvíjejí sofistikované systémy s prvky umělé inteligence založené na pravidlech, rámcích a vzorcích, příp. i se zakomponovanými samoučícími se prvky.
Hodnocení automatického přiřazování
Přestože výzkum a rozvoj metod automatického přiřazování probíhá již od 60. let 20. století, ještě ke konci 80. let nebyly jeho výsledky příliš uspokojivé. Např. studie provedená v r. 1987 [8] v databázi BIOSIS prokázala, že účinnost automatického přiřazování je na 60-67%ní úrovni ve srovnání s intelektuálním zpracováním, a to jak z hlediska počtu přiřazených termínu, tak z hlediska počtu správně přiřazených termínů. [9]
Metody a techniky automatického přiřazování od prvních pokusů v 60. letech značně pokročily, stále však není reálné zcela automatické přiřazování termínů bez intelektuálního zásahu. Tato skutečnost se týká zejména systémů využívajících velkých řízených slovníků (tisíce až desetitisíce termínů) a obsahujících dlouhé texty pojednávající o komplexních, obecných nebo heterogenních tématech.
Metoda automatického přiřazování obecně selhává, pokud je hodnocena z hlediska kvality výsledků intelektuální indexace. Nicméně i v těchto případech mohou být, podobně jako u automatické extrakce, výsledky automatizovaných procedur podkladem pro další intelektuální zpracování indexátorem. [10]
Metoda automatického přiřazování je poměrně účinná při aplikaci ve specifických oborech a disciplínách; relativně účinné jsou rovněž systémy pracující s krátkými texty (např. abstrakty nebo resumé) a s malým řízeným slovníkem. Také v aplikacích určených pro speciální účely (např. klasifikace minerálů) lze metodu s úspěchem využívat.
Příkladem toho, že metoda automatického přiřazování není bezproblémová ani na konci 20. století, je studie z r. 1993, [11] která na testovacích datech doložila, že v daném případě prosté vyhledávání v plném textu dokumentu přináší lepší výsledky než vyhledávání pomocí termínů automaticky přiřazených na základě tezauru [12].
Dlouhodobě neuspokojivé (resp. ne zcela uspokojivé) praktické výsledky metod automatického přiřazování vedly v posledních dvou dekádách k určitému odklonu zájmu od této problematiky; řada autorů se věnuje spíše teoretickým aspektům problematiky (např. pojmovému modelování) než praktickým implementacím ověřených metod. Důležitou roli také hraje skutečnost, že všeobecná dostupnost plných textů v elektronické podobě a účinnost moderních vyhledávacích technik (např. vektorové vyhledávání, pravděpodobnostní modely vyhledávání, latentní sémantické indexování, fuzzy modely vyhledávání, neuronové sítě, bayesovské sítě apod. - blíže viz Baeza-Yates a Ribeiro-Neto, 1999) význam indexace coby základního předpokladu pro efektivní vyhledávání dokumentů podstatně snižuje. To ovšem nic nemění na skutečnosti, že řada funkčních systémů založených na automatickém přiřazování ve specifických disciplínách existuje a je úspěšně používána.
Celkové hodnocení současných výsledků a trendů automatické indexace
Problematika automatické indexace se v disciplínách zabývajících se zpracováním textu řeší již od konce 50. let 20.století [13], kdy začaly být v elektronické verzi dostupné plné texty dokumentů nebo alespoň jejich části (např. abstrakty nebo názvy). V rámci mezinárodního výzkumu a vývoje v této oblasti vznikla řada teoretických, metodických, komparativních a případových studií, které se zabývají možnostmi a účinností různých modelů a technik automatické indexace. Velké úsilí bylo věnováno vytvoření teoretických, resp. koncepčních a funkčních modelů automatické indexace, vývoji metod a technik automatické indexace a tvorbě a testování úspěšnosti konkrétních systémů pro automatickou indexaci (podrobně viz (Lancaster, 1998:251-295).
Přestože se podařilo vyvinout řadu funkčních systémů pro automatickou indexaci, více než čtyřicetiletá snaha zatím nevedla k vývoji systémů, které by byly plně funkční z hlediska ideálních nároků na úplnou automatizaci procesu indexace a na univerzálnost těchto systémů (většina v současnosti fungujících systémů je specificky oborově zaměřená). Intelektuální indexace přináší ve srovnání s řadou automatických procedur (vč. např. latentního sémantického indexování) doposud lepší výsledky. Systémy automatické indexace jsou také částečně účinné mj. proto, že doposud nebyly dostatečně prozkoumány a podrobně popsány všechny intelektuální procesy související s indexačním procesem.
Na druhou stranu je třeba uvést, že řada technologií, jejichž účinnost byla v předchozích letech potvrzena výzkumem a řadou studií, je v současnosti implementována ve formě expertních systémů [14], systémů pracujících na základě umělé inteligence nebo ve vyhledávacích systémech. Tam, kde se podařilo automatickou indexaci úspěšně implementovat, je podstatně rychlejší a levnější než intelektuální indexace a přináší srovnatelné výsledky. V systémech, které pracují s velkými objemy dat, je automatická indexace v podstatě nezastoupitelná (Anderson a Pérez-Carballo, 2001a:236).
Výrazným trendem v praktické implementaci automatické indexace je její kombinace s intelektuální indexací za účelem vytvoření maximálně účinného systému indexace, v němž automatická indexace slouží k provádění operací, jež je možné v rámci indexačního procesu s úspěchem automatizovat, a intelektuální indexace se používá pro tvorbu přidané hodnoty, která zlepšuje celkovou kvalitu indexace a pozitivně tak ovlivňuje i výsledky vyhledávání (Anderson a Pérez-Carballo, 2001b:270-272). Tento přístup zohledňuje dlouholetým výzkumem a praxí potvrzenou skutečnost, že automatická indexace má své kvalitativní limity, na druhou stranu však může být pozitivním přínosem pro celkové zlepšení indexace, zvláště pokud jsou její výsledky upraveny pomocí intelektuální indexace.
Další výzkum v oblasti bude orientován především na prohloubení poznatků o struktuře textu, reprezentaci informací a poznatků, rozeznávání sémantických kategorií termínů, klasifikaci textů, rozpoznávání smyslu slov, pravděpodobnostní modely vážení termínů a další otázky související s automatizovaným zpracováním textu a přirozeného jazyka. Důležité jsou rovněž obecné otázky komunikačních paradigmat a kognitivních procesů, probíhajících při percepci a intelektuálním zpracování textu, ať už se jedná o jeho indexaci, klasifikaci nebo abstrahování.
Praktické aspekty implementace automatické indexace
Při úvahách, zda implementovat některou z metod automatické indexace do vlastního informačního systému, je třeba posoudit řadu okolností. O využití automatické indexace lze uvažovat v případě, pokud je splněna většina těchto podmínek:
- plné texty dokumentů, které mají být indexovány, existují v elektronické podobě a v lepším případě jsou strukturovány např. pomocí některého ze značkovacích jazyků (SGML, HTML, XML); strukturace dokumentů je nezbytná, pokud mají být implementovány metody založené na využití formalizované struktury dokumentů
- automatická indexace musí být účinnější nebo stejně účinná jako intelektuální indexace, resp. musí intelektuální indexaci zkvalitňovat anebo zrychlovat
- náklady na tvorbu, implementaci a provoz automatické indexace musí být nižší nebo stejné jako náklady na intelektuální zpracování; vyšší náklady lze akceptovat pouze při dosažení výrazně vyšší kvality výstupů
- informační systém je oborově zaměřený; systémy automatické indexace fungují dobře pouze v poměrně úzce vymezených oborech či disciplínách a jejich implementace do systému, který není oborově vymezen, je problematická
- nejsou dostupné moderní vyhledávací metody, které zajišťují efektivní vyhledávání v plných textech dokumentů a které jsou schopné automatickou indexaci do značné míry nahradit
Důležitým aspektem při rozhodování také může být skutečnost, že implementace automatické indexace předpokládá ve většině případů tvorbu systému "šitého na míru"; komerčních aplikací, které by byly bez zásadních úprav použitelné ve vlastním informačním systému (pokud se nejedná o velmi specifické případy), existuje minimum.
Také údržba systému nemusí být bez komplikací, zvláště pokud systém obsahuje sémantické komponenty, které vyžadují průběžnou aktualizaci.
Obecně lze konstatovat, že systémy automatické indexace vyvíjejí oborově zaměřené instituce, které zpracovávají velké objemy dokumentů, které je nezbytné kvalitně a konzistentně indexovat. V řadě případů se jedná o dokumenty zahrnující také komprimovaný text (např. abstrakt), na který lze použít některou z metod automatické indexace s relativně velkým úspěchem. Při dostupnosti plných textů dokumentů se dnes již spíše používá některé z pokročilých vyhledávacích metod, jejichž vývoj a implementace jsou obdobně technicky i finančně náročné jako u automatické indexace, ale v řadě případů přináší adekvátnější výsledky.
Příklady systémů automatické indexace
Tato kapitola obsahuje výběr několika domácích i zahraničních aktivit v oblasti automatické indexace, které mají ilustrovat předchozí teoretický výklad. Jedná se o plně funkční systémy, které jsou provozovány rutinně nebo v testovacím provozu. Další příklady systémů automatické indexace lze nalézt v kapitolách o stavu automatizovaného zpracování textu v ČR (viz kap. Popis vybraných českých systémů pro automatizované zpracování textu)
Media On Line Project
Media On Line Projekt byl realizován v letech 1996-1999 v Belgii, jeho financování bylo zajištěno v rámci programu Vlaams Actieprogramma Informatietechnologie, řešitelem bylo ICRI-Interdisciplinary Centre for Law and Information Technology na Katolické univerzitě v Lovani (Katholieke universiteit Leuven) ve spolupráci s dalšími institucemi.
Projekt byl zaměřen na online publikaci článků z různých oborů (politika, ekonomika, finance, životní styl, umění, sport atd.), které bylo třeba z důvodu průběžného dodávání uživatelům rychle a efektivně indexovat. Vzhledem k tomu, že pro indexaci byly používány maximálně tři obecné deskriptory na každý článek, jednalo se spíše o klasifikaci. Kromě automatické indexace bylo řešeno i automatické abstrahování.
V rámci projektu byl testován program pro automatickou indexaci, který pracoval na základě srovnávání cvičné (training corpus) a testovací (testing corpus) sady dokumentů. Dokumenty v cvičné sadě byly indexovány profesionálními indexátory a pomocí odvozovacího algoritmu (learning algorithm) sloužily jako referenční množina dokumentů pro nové dokumenty, které nebyly indexovány.
Základní procedura byla založena na těchto metodách:
- výběr a vážení termínů důležitých z hlediska obsahu - byl kladen důraz na efektivní výběr termínů vztahujících se k obsahu a vlastní jména; vlastní jména byla rozeznávána na základě profilů (patterns) velkých písmen a jejich opakovaném výskytu v textu. Byl použit negativní slovník o rozsahu 879 slov zahrnující částice, předložky apod., číslovky byly vypouštěny, lematizace nebyla implementována. Vybírány byly termíny pouze s vysokou váhou, termíny se vážily pomocí normalizované frekvence. Termíny byly vybírány ze začátku článku obsahující hlavičku, úvod a určení článku nebo z plného textu (pozdějšími analýzami se zjistilo, že je efektivnější vybírat termíny z plného textu, protože při výběru ze začátku článku byl indikován vysoký obsah obecných slov).
- odvozovací algoritmus (learning algorithm) - vybrané termíny byly použity ke srovnání s cvičnou sadou dokumentů a na základě několika algoritmů byla odvozena pravděpodobnost, s jakou článek patří do určité kategorie (byl použit bayesovský klasifikátor nezávislosti - Bayesian independence classifier) a na základě Rocchiova a chí-kvadrát algoritmu byl stanoven vektor váhy příslušných kategorií (category weight vector)
- přiřazení deskriptorů - na základě předchozích procedur byla pomocí bayesovského klasifikátoru vypočtena pravděpodobnost příslušnosti do dané třídy pro každý deskriptor; deskriptor s nejvyšší pravděpodobností byl zvolen pro indexaci, případně byl zvolen i druhý deskriptor v pořadí
- testování automatické tvorby tříd (example selection) - byla otestována efektivnost indexace pomocí automaticky generovaných koeficientů úplnosti a přesnosti.
Souhrnem lze říci, že testování automatické indexace proběhlo v tomto projektu úspěšně, většina použitých metod byla ověřena jako účinná. Pro zvýšení efektivity systému by bylo ještě možné v první fázi aplikovat lematizaci, jako velmi účinný se projevil při odvozovacím algoritmu použitý chí-kvadrát test, který vykazoval podstatně lepší výsledky než ostatní algoritmy.
Podrobný popis testů a použitých metod lze nalézt v Moens, 2000:207-226.
NASA MAI Tool
Center for AeroSpace Information (CASI) spadající pod americkou vládní organizaci NASA už od konce 70. let 20. století vyvíjí a rutinně používá MAI Tool (Machine-Aided Indexing Tool) pro automatickou indexaci technických zpráv a dalších dokumentů. Tento systém je typický příklad jednoduchého, ale robustního a účinného nástroje, který slouží jako automatická podpora intelektuální činnosti indexátora. Systém na základě výrazů z přirozeného jazyka vybírá za pomoci znalostní báze (knowledge base) deskriptory NASA tezauru (NASA thesaurus) a předkládá je k posouzení indexátorům, kteří provedou výsledný výběr a přiřazení deskriptorů k záznamům.
Původní syntaktická koncepce systému byla v květnu 1989 změněna na koncepci sémantickou a statistickou, a to především proto, že syntaktická koncepce přinášela tyto problémy:
- vysoký počet pravidel, na základě kterých se stanovoval kontextuální význam slova či sousloví
- vysoký počet informací potřebný k rozlišení významu slov
- syntaktický systém byl zaměřen spíše na formu než obsah slov a výrazů
V současnosti systém funguje na základě statistické analýzy současného výskytu slov ve větě a oborově zaměřené znalostní bázi. V rámci statistické analýzy jsou jedno- a víceslovná spojení převzatá z textu dokumentu porovnávána s obsahem znalostní báze a na základě jednoduchých pravidel jsou navrhovány kandidáti na indexační termíny (deskriptory NASA tezauru).
Jádrem systému je znalostní báze, jejímž základem je NASA tezaurus rozšířený o termíny a informace z dalších zdrojů. Znalostní báze byla dříve označována jako lexikální slovník (lexical dictionary) nebo konverzní tabulka (translation table), nové označení bylo zvoleno v souvislosti s rozšířením báze o vlastnosti pojmové sítě.
Znalostí báze se skládá z následujících segmentů:
- slovník (NASA tezaurus, výrazy z přirozeného jazyka, sousloví, termíny Department of Energy a z řady dalších zdrojů); slovník je průběžně doplňován na základě textové analýzy záznamů (užívají se názvy a abstrakty) o synonyma i nové položky, v r. 1993 obsahoval 121 000 položek
- vztahy mezi termíny
- jednoduchá pravidla, na základě kterých lze převádět výrazy přirozeného jazyka na deskriptory tezauru nebo normalizovat sousloví, která se v textu dokumentu vyskytují v různém tvaru
Záznam znalostní báze obsahuje tyto položky:
- klíčové slovo (key field)
- odkazová položka (posting term field) - toto pole obsahuje odkaz na příslušný deskriptor NASA tezauru nebo informaci o tom, jakým způsobem má být při automatické indexaci zpracován daný termín
Procedura automatické indexace probíhá ve třech krocích:
- aplikační program vybírá z dokumentu textové řetězce
- modulární program Access-2 generuje kombinace (resp. permutace) termínů a z termínů po sobě v textu následujících konstruuje potenciální sémantické jednotky (např. termíny A, B, C), které vyhledává ve znalostní bázi; pokud je sémantická jednotka nalezena, pokračuje se dalším krokem, pokud není nalezena, je vykombinována nová sémantická jednotka (např. A, B, C, D) a opět se ověřuje v databázi; nenalezená jednotka je zařazena do dávkového souboru pro pozdější posouzení a případné zařazení do znalostní báze
- pokud je sémantická jednotka ve znalostní databázi nalezena, na základě daných pravidel se rozhoduje, zda:
- je zvolen a do seznamu kandidátů zařazen odpovídající deskriptor NASA tezauru
- proběhne další kombinace termínů a nové vyhledávání v bázi
- je vyhledávání ukončeno, protože nalezená položka není pro další zpracování žádoucí
Systém MAI Tool obsahuje i jednoduché nástroje na hodnocení automatické indexace za použití tří měr:
- míra shody (match rate) - udává, kolik procent z termínů navržených automaticky použil indexátor jako indexační termíny; na počátku provozu systému to bylo průměrně 23%, na začátku roku 1996 se jednalo průměrně o polovinu termínů (40-60%)
- míra pokrytí (capture rate) - udává, kolik procent z deskriptorů, které použil indexátor, byly kandidáti navržené automaticky; míra je o několik procentních bodů vyšší než míra shody
- míra konzistence - udává míru shody mezi automatickou indexací a intelektuální indexací
Retrospektivní přehled vývoje uvedených charakteristik je následující:
Rok | Počet dokumentů | Míra shody | Míra pokrytí | Míra konzistence |
1987 | 2500 | 32,4 | 36,9 | 20,8 |
1988 | 100 | 37,0 | 39,0 | 23,4 |
1993 | odhad | 50,0 | 50,0 | 33,3 |
MAI Tool je v CASI používán již cca 30 let, je neustále zdokonalován, znalostní báze je stále rozšiřována, navíc, plně funkční verze MAI Tool je volně přístupná na internetu. Léta praktického užívání MAI Tool vedly k následujícím výsledkům:
- zrychlení indexace, včetně úspory času na analýzy a rešerše expertních informací, protože MAI Tool navrhuje velkou část specifických termínů.
- snížení nákladů
- omezení počtu indexátorů z 8 na 5 během 10 let
- zvýšení pracovní produktivity indexátorů
- zvýšení konzistence indexace
- zvýšení úplnosti indexace
Bližší popis systému uvádí Silvester, 1997.
Automatická indexace sněmovních tisků v KPS PČR
Parlamentní knihovna jako odbor Kanceláře Poslanecké sněmovny Parlamentu ČR (KPS PČR) od r. 2000 indexuje v testovacím provozu sněmovní tisky, od 4. volebního období (červen 2002) přešla indexace sněmovních tisků do rutinního provozu. V rámci indexace sněmovních tisků byla ve spolupráci s Odborem informatiky KPS PČR a diplomantem M. Urbanem (VŠE Praha) implementována automatická indexace založená na automatické extrakci slov a sousloví z textu dokumentu za podpory lematizátoru, frekvenční analýzy, rozpoznávání víceslovných výrazů, negativního slovníku a komparace slov z textu s lexikálními jednotkami tezauru EUROVOC. Výsledkem je frekvenčně uspořádaný seznam deskriptorů, který je určen pro další intelektuální zpracování. Automatická indexace je stále pouze v testovacím provozu z důvodů omezené využitelnosti jejích výsledků (viz dále).
Automatická indexace se skládá z následujících procedur:
- výběr termínu z textu dokumentu
- vyloučení nevýznamových slov pomocí negativního slovníku založeného na seznamu nevýznamových slov
- lematizace termínů založená na pravidlech
- lexikální analýza sousloví, založená na komparaci kořenů slov a jejich kombinací s lexikálními jednotkami tezauru EUROVOC; je uplatněn podobný princip jako u MAI Tool: kořeny jsou permutovány a porovnávány se lexikálními jednotkami, dokud není nalezen adekvátní termín nebo dokud není dosaženo maximálního počtu kořenů v množině
- vážení termínů na základě absolutní frekvence
Implementovaná technika má následující nedostatky:
- vážení termínů - je implementována pouze absolutní frekvence, pro větší efektivitu systému by bylo vhodné použití jiných frekvenčních funkcí
- umístění termínů v textu - v současnosti je termín z textu vybírán bez ohledu na jeho pozici v dokumentu (název, úvod, část, hlava, paragraf atd.); aby bylo možné rozlišovat zdroj výběru termínu, je nutné pracovat se strukturovanými dokumenty, které zatím nejsou k dispozici
- návrhy na nedeskriptory - v současnosti systém termíny, které nenalezne v tezauru, dále nezpracovává, bylo by nicméně vhodné je navrhnout jako kandidáty na lexikální jednotky pro zařazení do tezauru
Řešení ad 1 a 2 již byla až na úroveň algoritmu navržena diplomantem M. Klementem (VŠE Praha), nicméně zatím nebyla implementována.
Podrobný popis realizovaných i navržených řešení automatické indexace v KPS PČR viz Urban, 1999 a Klement, 2001.
Není bez zajímavosti, že souběžně s automatickou indexací se v KPS PČR testovali moderní vyhledávací metody v rámci projektu č. 201/00/1031 Inteligentní vyhledávání v dokumentografických informačních systémech, který řešila MFF UK ve spolupráci s KPS PČR. Projekt měl za cíl pomocí standardních metodik otestovat vyhledávací techniky založené na statistickém přístupu (např. vektorové vyhledávání, latentní sémantické indexování, pojmové shlukování).
Automatizované zpracování textu v ČR : historicko-bibliografický exkurz
Stručný souhrn
Přestože se v bývalém Československu začal rozvíjet výzkum a vývoj v oblasti automatizovaného zpracování textu až od konce 60. a začátku 70. let 20. století, tedy s cca 15letým zpožděním oproti špičkovým zahraničním pracovištím, vznikla zde řada nejen regionálně, ale i mezinárodně jedinečných systémů, které byly určeny k automatizovanému zpracování textu především v oblasti automatické indexace, automatické tvorby tezauru a automatického překladu. Na světové úrovni, zejména zásluhou P. Sgalla, se v Československu rozvinula také matematická lingvistika, označovaná také jako komputační lingvistika, a zejména v druhé polovině 90. let 20. století rovněž i korpusová lingvistika. Většina uvedených systémů dnes slouží k výzkumných účelům, ale některé z nich jsou částečně dostupné i komerčně (týká se to např. systému LEGSYS).
Vývoj před rokem 1989
Většina systémů byla vyvíjena jako projektové úkoly v rámci bývalé soustavy VTEI na specializovaných pracovištích nebo v jednotlivých oborových nebo odvětvových střediscích VTEI. V 70. letech 20. století to byly zejména experimenty s automatickou indexací prováděné J. Janošem v OBIS při závodě Turbiny podniku Škoda Plzeň (souhrnně viz Janoš, 1976), které však přes úspěšnost zvolené metody nebyly z organizačních a finančních důvodů převedeny do praktického provozu (Rozkopal, 1994:40). Za zmínku stojí také jednoduchá, ale účinná metoda automatické indexace AUTIS-AI vyvinutá na konci 80. let 20. století J. Hradilem v ODIS VTEI pro uhelný průmysl v Ostravě, která byla v bibliografické databázi AUTIS-uhlí (150 000 záznamů) používána až do r. 1996 (Hradil, 1987; Rozkopal, 1994:47-57).
Od začátku 70. let byl v rámci soustavy VTEI vyvíjen i systém SEMAN (Smetáček, 1982b a 1984a) a na akademické půdě (MFF UK) systém MOZAIKA (Kirschner, 1979 a 1983), přestože publikační činnost vztahující se k těmto systémům lze zaznamenat až o deset let později. 70. a 80. léta představovala také období rozvoje matematické, komputační a korpusové lingvistiky pod vedením P. Sgalla; vzniklo specializované pracoviště (dnes Ústav formální a aplikované lingvistiky/Centrum komputační lingvistiky na MFF UK), znalosti a zkušenosti jeho pracovníků byly zúročeny i v současném projektu Pražského závislostního korpusu.
Vývoj po roce 1989
V souvislosti s rozpadem soustavy VTEI po roce 1989, resp. 1991, oba největší systémy (SEMAN a MOZAIKA) budované téměř 20 let fakticky zanikly, i když koncepty, metodologie a technologie byly prostřednictvím hlavních autorů alespoň částečně přeneseny do projektů moderních systémů, někdy budovaných na komerční bázi [15].
V oblasti korpusové lingvistiky vznikly dva velké projekty, Pražský závislostní korpus navazující na činnost týmu P. Sgalla, a Český národní korpus, tvořený v nově vzniklém (1994) Ústavu Českého národního korpusu na FF UK (http://ucnk.ff.cuni.cz).
V oblasti pojmového modelování a tvorby znalostních bází byl rozvinut velmi pozoruhodný projekt v Ústavu státu a práva AVČR, který je realizován v rámci právního informačního systému LEGSYS (Kořenský, Cvrček a Novák, 1999; též http://www.legsys.cz).
Na svůj předchozí výzkum a publikační činnost navazuje M. Cigánik, který se snaží o komplexní pohled na automatizované zpracování textu za pomocí syntaktické analýzy, reprezentace metainformací, templátové logiky, ontologických entit a dalších progresivních přístupů (viz např. Cigánik 1999a a 1999b).
Popis vybraných českých systémů pro automatizované zpracování textu
SEMAN
SEMAN (SÉMantický ANalyzátor) se podařilo rozvinout v průběhu 70. a 80. let 20. století v experimentálním i rutinním provozu a ověřit tak metodu, která problémy spojené s automatickou analýzou textu řešila na základě sémantické analýzy přirozeného jazyka. SEMAN umožňoval nejen automatickou tvorbu tezauru, ale i propojování odlišných selekčních jazyků, vyhledávání v databázích používajících různé selekční jazyky, automatické vyhledávání v plnotextových databázích a automatický překlad.
Základním principem metody SEMAN je převod výrazů přirozeného jazyka na kombinace omezeného počtu rozlišujících sémantických rysů trojího druhu: sémů, sémových operátorů a pomocných pořadatelů [16]. Sém vyjadřuje jeden sémantický rys pro celou třídu lexikálních jednotek přirozeného jazyka, u kterých lze tento rys identifikovat, sémový operátor modifikuje obsah sému a pomocné pořadatele specifikují obsah sému na velice podrobné úrovni (v případě vlastních jmen). Pro sémy a sémové operátory jsou stanoveny formální kódy, které nemají vztah k obsahu sému ani obsahu lexikální jednotky. Sémový výraz je pak kód sému případě spojený s příslušnými kódy sémových operátorů; lexikální jednotka je popsána sémovým ekvivalentem, který je představován souborem sémových výrazů. Mezi sémy byly stanoveny sémantické vztahy, z nichž většina měla paradigmatický charakter a byla do určité míry obdobná sémantickým vztahům v tezauru (Smetáček, 1982b:16-27).
Na příkladě automatické tvorby tezauru lze demonstrovat, jak metoda SEMAN prakticky fungovala [17]:
- Výběr lexikálních jednotek budoucího tezauru proběhl z databáze BALEX [18] intelektuálně nebo automaticky pomocí volby nejobecnějších lexikálních jednotek. Prostřednictvím těchto obecných lexikálních jednotek bylo na základě vztahů mezi sémy možno automaticky vybrat celé lexikum tezauru. Požadované lexikální jednotky, které databáze BALEX neobsahovala, bylo možno vložit v průběhu této první etapy.
- Ve druhém kroku byl proveden výpočet koeficientu příbuznosti dvojic lexikálních jednotek, který byl stanovován na základě počtu shodných sémů dvou lexikálních jednotek.
- Následovalo abecední seřazení dvojic lexikálních jednotek a stanovení jejich vztahů (ekvivalence, asociace, hierarchie) na základě předchozího výpočtu a dalších hodnot (např. vah sémů).
- Na závěr bylo provedeno vyloučení dvojic lexikálních jednotek, u nichž koeficient příbuznosti nedosahuje zvolené limitní hodnoty, sloučení shodných lexikálních jednotek a výstup ve formě klasického tezauru.
Tvorba tezauru pomocí metody SEMAN byla sice označována jako automatická (resp. automatizovaná) tvorba tezauru, nicméně vzhledem k prvnímu kroku a vzhledem k tomu, že výsledky uvedeného postupu sloužily "pouze" jako podklady pro další intelektuální práci na tezauru, [19] se zjevně jednalo o poloautomatickou tvorbu tezauru.
Metoda SEMAN představovala ojedinělý a ve své době úspěšný pokus o sémantickou analýzu přirozeného jazyka a jeho aplikaci pro různé oblasti automatizovaného zpracování textů. Dobové hodnocení spatřuje přínos metody zejména v tom, že ve srovnání s intelektuálními metodami přináší časové a pracovní úspory a přitom je na kvalitativně srovnatelné úrovni (Uličný, 1987). K tomu je nutno podotknout, že prvotní tvorba sémantického jazyka, analýza desítek tisíc lexikálních jednotek přirozeného jazyka a jejich vyjádření pomocí sémů a dalších sémantických rysů si vyžádala obrovské množství analytické práce. Pracnost tvorby sémantického jazyka byla jednou z nevýhod této metody. Dalším principiálním omezením metody byly problémy spojené s vyjádřením obsahu lexikálních jednotek a především specifických odborných termínů pomocí sémantických jednotek, které z důvodů své částečné subjektivity vedly k omezené kvalitě zpracovávaných výstupů a nutnosti následných intelektuálních úprav.
Další informace o SEMANu lze nalézt v řadě publikovaných materiálů (viz kap. Přehledová bibliografie automatizovaného zpracování textu v ČR, část SEMAN).
MOZAIKA
MOZAIKA (na Morfologickém Odvozování Založené Automatické Indexování Koherentními Agregáty) je poměrně sofistikovaná technologie automatického indexování, vyvinutá v 70.-80. letech 20 století na MFF UK, proto pouze stručně popíšeme její základní charakteristiky a pro detailní popis odkážeme na literaturu (viz kap. Přehledová bibliografie automatizovaného zpracování textu v ČR, část MOZAIKA):
- indexační termíny se vybírají z textu
- žádoucí jsou termíny maximálně charakterizující obsah textu
- upřednostňují se víceslovné termíny
- nepoužívá se předem připravený řízený slovník
Identifikace termínů probíhá v systému MOZAIKA na základě charakteristických sufixů (koncovek), které jsou uvedeny ve slovníku koncových segmentů [20] a charakterizují dané třídy termínů. Automatické procedury probíhaly ve dvou fázích:
- morfologicko-syntaktická analýza:
- vyloučení nevýznamových termínů pomocí negativního slovníku
- identifikaci specifických slov (předložky, spojky), které mohou být důležité pro syntaktickou analýzu
- určení potenciálně vhodných indexačních termínů za pomoci slovníku koncových segmentů
- vážení termínů na základě zvolené frekvenční funkce
- syntaktická analýza
- jednotlivé indexační termíny jsou složeny do sousloví, tzv. koherentních agregátů
- na základě předložek či spojek jsou identifikována spojení jmenných frází
- úprava vah termínů
MOZAIKA byla jako systém úspěšně testována v několika oborech, nejlepších výsledků bylo dosaženo zejména v disciplínách s ustálenou terminologií. Metoda je vhodná zejména pro jazyky, které mají rozvinutou flexi a gramatickou shodu, určitých pozitivních výsledků bylo kromě češtiny, slovenštiny a ruštiny dosaženo i v němčině. Metoda však nedokáže dostatečně řešit problémy synonymie, homonymie a skrytých vztahů v textu.
Systém LEGSYS a pojmové modelování právního jazyka
Ústav státu a práva AVČR vybudoval během 90. let 20. století jedinečnou znalostní databázi právních textů, která ve značné retrospektivě zahrnuje rozsáhlý soubor různých typů právních textů [21]. Od dalších právních systémů se liší tím, že:
- všechny dokumenty jsou důsledně strukturovány (používá se vlastní značkovací jazyk na bázi XML)
- každý jedinečný termín z textu dokumentu je zařazen do několika desítek lingvistických, pojmových a dalších kategorií, čímž de fakto dochází k tvorbě ontologických entit
- obsahuje řadu dílčích pomocných databází
Tyto charakteristiky řadí systém na úroveň znalostní báze, která umožňuje provádět např. rozsáhlé kvantitativní a kvalitativní charakteristiky intratextové (vztah obsahu části dokumentů jako část, hlava, oddíl, paragraf) a intertextové struktury právního textu (vztah zákona k dalším právním dokumentům z hlediska novelizace, derogace apod.) nebo analýzu formální i věcné struktury právních pojmů. Vývoj systému směřuje k tomu, aby byla umožněna automatická generace právních textů, alespoň na úrovni podpory intelektuální činnosti zákonodárce.
Komerčně dostupná verze systému obsahuje pochopitelně pouze část těchto možností, v databázi je např. zajištěna derivace tvarů rešeršních termínů a proximitní vyhledávání.
Pro ilustraci následuje popis některých komponent a analytických možností systému, podrobné informace lze nalézt v publikaci KOŘENSKÝ, J., CVRČEK, F., NOVÁK, F. (1999).
- Databáze plných textů, označuje se jako úplný slovník - obsahuje 5500 právních předpisů a 3500 judikátů, 29 283 462 slov (délka databáze) [22]. Databáze obsahuje všechna různá slova, číslice a speciální znaky s uvedením četností v celé databázi. Databáze obsahuje i tvary slov, které se nevyskytují v textech; tyto položky mají nulovou četnost. Slovník obsahuje (stav 1998) 261 608 slov. Poměr slovníku k délce databáze je 0,9%.
- Databáze mapa, označuje se jako LEMMA - obsahuje všechna slova, číslice a speciální znaky za sebou tak, jak se vyskytují v textech. Databáze zahrnuje základní tvary slov s kumulativními četnostmi. Tato databáze neobsahuje číslice. Databázi lze setřídit podle libovolné položky. Databáze také zahrnuje následující položky:
- základní tvar slova
- typ, který zahrnuje speciální znaky, číslice-zvláštní soubor, česká slova, zkratky s tečkou, římské číslice, zkratky bez tečky, pomocné znaky (", apod.), slovenská slova, cizí slova
- slovní druh
- rod
- životnost
- příslušnost ke kmenové sémantické (resp. onomasiologicko-slovotvorné) skupině (např. daň, danit, zdanění)
- typy právních významů
- četnost
- číslo základního slovního tvaru
Databáze obsahuje 118 309 položek, z toho cca 80% jsou česká slova. Poměr slovníku LEMMA k úplnému slovníku je cca 45%.
- Automatické vyhledávání konceptuálních objektů - byla provedena podrobná analýza morfologicko-syntagmatické struktury právního textu, resp. právních pojmů a vypracován její obecný model. Na podobně podrobné úrovni je zpracována segmentace textu právních textů na základě formálních a věcných (syntakticko-sémantických) ukazatelů, která slouží pro identifikaci konceptuálních objektů, opět jako obecný model. Pro identifikaci povahy vztahu mezi formálními a věcnými ukazateli je navržen obecný algoritmus. Je popsána problematika syntagmat v rámci segmentů textu a analyzovány spojovací prostředky v rámci syntaktické segmentace formální věty. Analýzy jsou provedeny na úrovni bezprostředně využitelné pro algoritmizaci.
- Analýza struktury právních textů a právních pojmů - zahrnuje lingvistickou analýzu právních textů, která zkoumá morfologické a sémantické (homonymie, polysémie, synonymie) aspekty právních textů; jedná se např. o reprezentativnost názvů textů z hlediska obsahu dokumentů nebo význam délky textů. Tato analýza částečně navazuje na předchozí analýzu morfologicko-syntagmatické struktury právního textu. Vedle lingvistické analýzy právního textu byla provedena i analýza juristická, která se zaměřila na formální členění právních textů a jeho vztahu k obsahu dokumentu, a analýza formálních vztahů mezi právními texty. Kromě toho je proveden rozbor právních pojmů z hlediska povrchové [23] struktury právních textů. Analýza struktury právních textů je realizována automaticky pomocí konkrétních programů.
Přehledová bibliografie automatizovaného zpracování textu v ČR
Bibliografie obsahuje záznamy dokumentů z let 1960-2002 vydaných v současné ČR nebo SR. Nejedná se o vyčerpávající bibliografii, nicméně základní dokumenty a témata jsou indikovány. Podle jednotlivých témat je také bibliografie uspořádána, na druhé úrovni je seřazena chronologicky sestupně.
Automatizované zpracování textu
- JEDLIČKOVÁ, P. (2002). Rozumný špión čte noviny : rozhovor s Doc. PhDr. Vladimírem Smetáčkem, CSc. Ikaros [online]. 2002, č. 05 [cit. 2002-05-01]. Dostupný na World Wide Web: http://www.ikaros.cz/Clanek.asp?ID=200208484
- STROSSA, P. (1999). Vybrané kapitoly z počítačového zpracování přirozeného jazyka. Opava : Slezská univerzita, 1999. 277 s.
- CIGÁNIK, M. (1999b). Templátová sémantika. Knižnice a informácie, 1999, roč. 31, č. 8/9. Dostupný též na URL: http://www.snk.sk/snk/ki/0899/a1.pdf
- CIGÁNIK, M. (1999a). Od informačného prieskumu k riadeniu znalostí. Knižnice a informácie, 1999, roč. 31, č. 2. Dostupný též na URL: http://www.snk.sk/snk/ki/0299/a1.pdf
- KOŘENSKÝ, J., CVRČEK, F., NOVÁK, F. (1999). Juristická a lingvistická analýza právních textů : (právněinformatický přístup). Praha : Academia, 1999. 171 s.
- PANEVOVÁ, J. (1998). Funkční styly a automatické zpracování jazyka. Slavia, 1998, s. 161-167.
- POKORNÝ, J., SNÁŠEL, V., HÚSEK, D. (1998). Dokumentografické informační systémy. Praha : Karolinum, 1998.
- CIGÁNIK, M. (1998). Synergické zbližovanie jazykového zabezpečenia informačných systémov. Knižnice a informácie, 1998, roč. 30, č. 5. Dostupný též na URL: http://www.snk.sk/snk/ki/0598/kvi05.pdf
- CIGÁNIK, M. (1997). Pred koordináciou a kooperáciou informačných systémov. Knižnice a informácie, 1997, roč. 29, č. 10. Abstrakt dostupný na URL: http://www.snk.sk/snk/ki/1097/a.html
- STROSSA, P. (1994). Zpracování informačních fondů. Seš. 2. Algoritmizace a automatizace zpracování textových informací. Praha : Vysoká škola ekonomická, 1994. 139 s.
- CIGÁNIK, M. (1988). Komplexné informačné systémy založené na automatizovanom porozumení textu. Knižnice a vedecké informácie, 1988, roč. 20, č. 1, s. 5-13.
- CIGÁNIK, M. (1985). Algoritmické metainformačné porozumenie textu. Informační systémy, 1985, roč. 14, č.1, s. 33-49.
- BAKO, M. (1984). Informačné selekčné jazyky III. Bratislava : Slovenské pedagogické nakladateľstvo, 1984. Tezaurus a jeho výstavba, s. 83-177.
- SMETÁČEK, V. (1982c). Trendy ve vývoji selekčních jazyků. Praha, ÚVTEI, 1982. 109 s.
Komputační lingvistika
- PALA, K., OSOLSOBĚ, K. (1992). Základy počítačové lingvistiky. Brno : Masarykova univerzita, 1992.
- SGALL, P. (1986). Lingvistická problematika automatického zpracování textu. Československá informatika, 1986, roč. 28, č. 10, s. 273-275.
- SGALL, P. (1984). Využitie lingvistických metód vo VTEI. Bratislava : Slovenská technická knižnica, 1984. 115 s.
- SGALL, P. (1977). Úloha lingvistiky při zpracování informací. Praha : ÚVTEI, 1977. 126 s.
Automatická indexace
- KLEMENT, M. (2001). Zdokonalení lingvistické podpory indexování dokumentů v informačním systému Poslanecké sněmovny Parlamentu ČR. [Praha], 2001. 65 s. Diplomová práce. Vysoká škola ekonomická. Fakulta informatiky a statistiky. Katedra informačního a znalostního inženýrství. Vedoucí práce P. Strossa.
- URBAN, M. (1999). Strojová klasifikace dokumentů. [Praha], 1999. 92 s+8 příl. Diplomová práce. Vysoká škola ekonomická. Fakulta informatiky a statistiky. Katedra informačního a znalostního inženýrství. Vedoucí práce P. Strossa.
- LHOTSKÁ, A., SCHWARZ, J. (1999). Aktualizace tezauru EUROVOC a poloautomatická reindexace. Ikaros [online], 1999, č. 1 [cit. 1999-08-12]. Dostupný z: URL: http://www.ikaros.cz/node/263
- CIGÁNIK, M. (1994). Inteligenčné indexovanie a inteligenčné klasifikácie. Knižnice a informácie, 1994, roč. 26, č. 12, s. 497-503.
- ROZKOPAL, A. (1994). Automatizovaná indexace v dokumentografických bázích dat : vybrané přístupy k řešení v ruské, české, německé a anglické jazykové oblasti se zvláštním zřetelem na metodu AIR/PHYS. Praha, 1994. 111 s. Diplomová práce. Univerzita Karlova, Fakulta filozofická, Ústav informačních studií a knihovnictví. Vedoucí práce P. Pálka.
- MITUROVÁ, P. (1991). Automatické indexování dokumentů v ODIS VTEI pro uhelný průmysl v Ostravě. Praha : 1991. 83. Diplomová práce. Univerzita Karlova, Fakulta filozofická, Katedra vědeckých informací a knihovnictví.
- CIGÁNIK, M. (1990). Možnosti automatizácie predmetovej katalogizácie a tezaurového automatizovaného indexovania. Knižnice a vedecké informácie, 1990, roč. 22, č. 2, s. 49-57.
- BŘUSKOVÁ, P. (1990). Zkušenosti s automatickou indexací dokumentů. In Progresívne komunikačné a informačné technológie v informačnej praxi. Košice : Dom techniky ZSVTS, 1990.
- JANGOT, J., NĚMCOVÁ, A. (1989). Budování bibliografické báze dat s využitím automatické indexace v ODIS VTEI pro uhelný průmysl. In Hornická Příbram ve vědě a technice : informatika v geologii a hornictví. Příbram : Dům techniky ČSVTS, 1989, s. 29-40.
- NĚMCOVÁ, A. (1989). Automatická indexace : nový způsob ukládání a vyhledávání informací v ODIS VTEI pro uhelný průmysl. Zpravodaj OKD-RPO, 1989, roč. 30, č. 9, s. 13-20.
- PANEVOVÁ, M. (1989). Selekční jazyk PASSAT. Československá informatika, 1989, roč. 31, č. 4, s. 102-105.
- HRADIL, J. (1987). Příručka pro automatickou indexaci dokumentografických informací z oblasti uhelného hornictví. Ostrava : OKD-Automatizace řízení, 1987. 27 s.
- KOVÁŘ, B. (1984). Věcné pořádání informací a selekční jazyky. Praha : ÚVTEI, 1984, s. 243-251.
- KOVÁŘ, B. (1982). Věcné pořádání informací a selekční jazyky. Díl 2. Předmětová pořádání, mezinárodní spolupráce, automatické indexování. Praha : ÚVTEI, 1982, s. 128-135.
- SALTON, G. (1981). Prieskumový informačný systém. Bratislava : Alfa, 1981. 587 s.
- CIGÁNIK, M. (1980a). Integrovaná báza dát založená na makrotezaure SPINES s automatickým indexováním textov. In Infos `80. Bratislava : Alfa, 1980, s. 76-90.
- JANOŠ, J. (1976). Výsledky experimentu s automatickým indexováním dokumentačních záznamů odborné literatury. Praha : Státní knihovna ČSR, 1976. S. 47-104.
- JANOŠ, J. (1975). Výsledky experimentu s automatickým indexováním na základě abstraktů v češtině. Československá informatika, 1975, roč. 17, č. 1, s. 4-8.
- PAPOUŠEK, O. (1975). Příprava na automatickou indexaci v OKD. In Deskriptorová analýza a tvorba deskriptorů v českém jazyce : Sborník příspěvků ze semináře. Praha : Dům techniky ČSVTS, 1975, s. 60-67.
- MÁRTONOVÁ, R., CHLEBÍKOVÁ, M. (1974b). Prieskum metód indexácie a tvorby riadených slovníkov a tezaurov : (štúdia k výskumnej úlohe P 18-521-079-00-04). Bratislava : Ústredná ekonomická knižnica, 1974. 27 s. MÁRTONOVÁ, R., CHLEBÍKOVÁ, M. (1974a). Prieskum metód indexácie a tvorby riadených slovníkov a tezaurov. Bratislava : Ústredná ekonomická knižnica, 1974. 90 s.
- JANOŠ, J. (1973b). Příprava počítačových experimentů s automatickým indexováním v ÚVTEI. Československá informatika, 1973, roč. 15, č. 5, s. 6-21.
- JANOŠ, J. (1973a). Automatické indexování jako další etapa při integraci čs. sítě VTEI.In Pořádací systémy v integrované čs. síti VTEI. Praha : Dům techniky ČVTS,1973, s. 56-65.
- CIGÁNIK, M. (1973). Efektívne realizovatelné automatické indexovanie. Knižnice a vedecké informácie, 1973, roč. 5, č. 3, s. 97-103.
- JANOŠ, J. (1972b). Základní problémy automatického indexování. Československá informatika, 1972, roč. 14, č. 4, s. 14-25.
- HELBICH, J. (1972b). Statistical methods on evaluating words for indexing purposes. Prague Studies in Mathematical Linguistics, 1972, č. 4, s. 65-76.
- HELBICH, J. (1972a). Selekční schopnost slov. Experimentální srovnávací studie algoritmů pro výběr slov k indexaci dokumentů a k sestavování tezaurů. P-18-121-001-00-06/větev B, č. 6. Etapová zpráva. Praha : Institut hygieny a epidemiologie, 1972. 109 s.
- JANOŠ, J. (1972a). Hlavní směry experimentální praxe automatického indexování. Československá informatika, 1972, roč. 14, č. 5, s. 10-23.
- Automatické indexování patentových informací (1970). Praha : Ústřední knihovna patentové literatury, 1970. 157 s.
Automatická tvorba tezauru
(viz též SEMAN)
- ULIČNÝ, O., STRAKA, J. (1986). Stav a perspektivy automatizované aktualizace tezaurů. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 138-142.
- LELÁKOVÁ, L. (1981). Automatizovaná tvorba tezauru na základě predmetových registrov. Bratislava, 1981. 72 s. Diplomová práce. KKVI FF UK.
MOZAIKA
- HYHLÍKOVÁ, V. (1988). Metody automatického indexování : experiment MOZAIKA. Praha, 1988. 25 s. Strojopis. Univerzita Karlova-Filozofická fakulta.
- KIRSCHNER. Z. (1988). Eksplicitnoje opisanije jazyka i avtomatičeskaja obrabotka tekstov. [Sv.] 9. Praha : SNTL, 1988. 157 s.
- KIRSCHNER. Z. (1987). Eksplicitnoje opisanije jazyka i avtomatičeskaja obrabotka tekstov. [Sv.] 13. Praha : SNTL, 1987. 182 s.
- PANEVOVÁ, M. (1986). Porovnání výsledků intelektuálního indexování a automatického indexování na základě metody MOZAIKA. Praha : 1986. 96 s. Diplomová práce. Univerzita Karlova, Fakulta filozofická, Katedra vědeckých informací a knihovnictví.
- KIRSCHNER. Z. (1982). Experiment s metodou úplného textu. Československá informatika, 1982, roč. 24, č. 4, s. 105-112.
- KIRSCHNER. Z. (1983). MOSAIC - A Method of Automatic Extraction of Significant Terms from Texts. Praha : MFF UK, 1983. 124 s.
- KIRSCHNER. Z. (1979). K automatizovanému zpracování textu : metoda MOZAIKA. Československá informatika, 1979, roč. 21, č. 3, s. 67-73.
- KIRSCHNER. Z. (1975). Eksplicitnoje opisanije jazyka i avtomatičeskaja obrabotka tekstov. 10., MOSAIC - A Method of Automatic Extraction of Significant Terms fromTexts. Praha : SNTL, 1975. 120 s.
SEMAN
- SMETÁČEK, V. (1988). Uživatelské chody báze BALEX. Metodický zpravodaj československé soustavy VTEI, 1988, roč. 16, č. 3, s. 3-52.
- ULIČNÝ, O. (1988). Rozvoj metody SEMAN v rámci výzkumných úkolů VTEI. Knižnice a vedecké informácie, 1988, roč. 20, s. 59-61.
- SMETÁČEK, V. (1987). Tezaurus sémů. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1987, č. 7, nestr.
- SMETÁČEK, V., MIKESKOVÁ, M. (1987). O báze BALEX a metóde SEMAN. Knižnice a vedecké informácie, 1987, roč. 19, č. 5, s. 230-232.
- ULIČNÝ, O. (1987). Automatizovaná tvorba tezauru s využitím metody SEMAN. Československá informatika, 1987, roč. 29, č. 1, s. 16.
- SMETÁČEK, V. (1986?). Obsahová analýza literárního textu s pomocí sémantického kódu : (první verze). 1986?, 60 s.+příl. Strojopis.
- SMETÁČEK, V., KUBEŠOVÁ, M. (1986). Budování a možnosti využití báze lexikálních jednotek BALEX. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 96-103.
- SMETÁČEK, V., NYKLOVÁ, A., ULIČNÝ, O. (1986). Automatizovaná tvorba tezaurů. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 103-109.
- NYKLOVÁ, A. (1986). Automatické vytváření slovníku typu tezauru ze souboru lexikálních jednotek (BALEX-ATEZ) : Provozní dokumentace. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1986, č. 1, 49 s.+příl.
- JONÁK, Z. (1986). Systém lingvistického zabezpečení metodou SÉMAN. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 118-125.
- SMETÁČEK, V. (1985b). Prvky umělé inteligence v lingvistickém zabezpečení bází dat. In Informatika 90. let. Praha : Dům techniky ČSVTS, 1985, s. 45-50.
- SMETÁČEK, V. (1985a). Experimentální ověření vlivu hodnot jednotlivých proměnných na výsledky procedury ATEZ. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1985, č. 9, s. 2-16.
- ULIČNÝ, O., WEBR, J. (1985). K problematice automatizované tvorby a aktualizace tezauru. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1985, č. 6, s. 20-37.
- ČERMÁKOVÁ, A., SMETÁČEK, V., ULIČNÝ, O. (1985). Automatické vytváření slovníku typu tezauru ze souboru lexikálních jednotek nebo znaků klasifikací (BALEX-ATEZ) : Návrh technologie. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1985, č. 7, 18 s.+příl.
- SMETÁČEK, V. (1984b). Automatizovaná tvorba tezauru s pomocí metody sémantického analyzátoru. In Selekčné jazyky `84 : (zborník zo seminára konaného v dňoch 20.-21. júna 1984 v Bratislave). Bratislava : Slovenská technická knižnica, 1984, s. 60-65.
- SMETÁČEK, V. (1984a). Sémantický analyzátor : (experimentální ověřování). Olomouc : Univerzita Palackého,1984. 296 s.
- ULIČNÝ, O., WEBR, J. (1984). K problematice automatizované tvorby a aktualizace tezauru. Československá informatika, 1984, roč. 28, č. 6, s. 161-167.
- SMETÁČEK, V., WEBR, J. (1983). Možnost automatického zjišťování stupně obsahové příbuznosti lexikálních jednotek přirozeného selekčního jazyka. Československá informatika, 1983, roč. 25, č. 7/8, s. 197-204.
- SMETÁČEK, V. (1982b). Sémantický analyzátor : základní pojmy a prvky (úvod do problematiky). Olomouc : Univerzita Palackého,1982. 189 s.
- ULIČNÝ, O. (1982). Struktura sémantického analyzátoru jako prostředku sémantické analýzy textu.In Využití lingvistických přístupů v informatice. Městský seminář, Praha, 10.-11. června 1982. Praha : Dům techniky ČSVTS,1982, s. 81-87.
- SMETÁČEK, V. (1982a). SEMAN - experimentální automatizovaný nástroj obsahové analýzy textů v přirozeném jazyce.In Využití lingvistických přístupů v informatice. Městský seminář, Praha, 10.-11. června 1982. Praha : Dům techniky ČSVTS,1982, s. 55-63.
- JONÁK, Z. (1982). Experimentální ověření sémantického analyzátoru při automatickém indexování.In Využití lingvistických přístupů v informatice. Městský seminář, Praha, 10.-11. června 1982. Praha : Dům techniky ČSVTS,1982, s. 64-72.
Poznámky:- Někdy se používá méně vhodného termínu manuální indexace (manual indexing).
- Automatická indexace se uplatňuje i ve zpracování obrazových, zvukových a audiovizuálních informací a dokumentů, v těchto oblastech je však vývoj funkčních technologií v podstatě na počátku (Anderson a Pérez-Carballo, 2001b:256).
- Kmen je slovní základ, který může být tvořen pouze kořenem (např. ruka), kořenem a slovotvornou příponou (např. ruč-ní) nebo dvěma kořeny (např. vino-hrad).
- Rozpoznávání podle mezer nelze uplatnit v některých jazycích, např. čínštině, kde každý znak reprezentuje spíše jeden morfém nebo slabiku než slovo. Pro identifikaci se slov se v takových případech používají stejné techniky jako pro identifikaci sousloví.
- Výklad termínu viz kapitola Vážení.
- Tímto slovníkem může být i řízený slovník selekčního jazyka, např. tezaurus.
- Od klasického tezauru se tato struktura podstatně liší rozsáhlejší množinou ekvivalentů a dalších sémantických informací.
- VLEDUTS-SOKOLOV, N. Concept recognition in an automatic text-processing system for the life sciences. Journal of the American Society for Information Science, 1987, roč. 38, s. 269-287. Cit. dle LANCASTER, F. W. Indexing and abstracting in theory and practice. 2nd ed. London : Library Association Publishing, 1998, s. 258.
- Jako řízený slovník byl v tomto případě použit sémantický slovník s 15 000 termínů z oblasti biologie, výstupem (indexačními termíny) bylo cca 600 obecnějších klíčových slov (concept headings).
- HEARSH, W. R. a kol. Words, concepts, or both : optimal indexing units for automated information retrieval. In Sixteenth Annual Symposium on Computer Applications in Medical Care. New York : McGraw, 1993, s. 644-648. Cit. dle LANCASTER, F. W. Indexing and abstracting in theory and practice. 2nd ed. London : Library Association Publishing, 1998, s. 259.
- Tomuto postupu se často nevyhnou ani poměrně sofistikované systémy, zamýšlené jako plně automatizované, přesto vyžadující v konečné fázi indexace lidský zásah (viz např. systém AIR/PHYS - Lustig, 1986:170-173 a Rozkopal, 1994:94-96)
- Jednalo se o oblast medicíny, použit byl metatezaurus UMLS - Unified Medical Language System.
- V literatuře se jako na historicky první studii odkazuje k práci: LUHN, H. P. A statistical approach to mechanized enconding and searching of literary information. IBM Journal of Research and Development, 1957, roč. 2, č. 2, s. 159-165. Kvalitní přehled dalšího vývoje obsahují např. Anderson a Pérez-Carballo, 2001b nebo Lancaster, 1998.
- Příkladem může být systém MedIndEx - Medical Indexing Expert (National Library of Medicine), který je standardním expertním systémem založeným na rámcím poskytujícím podporu nezkušeným (neprofesionálním) indexátorům. Jinak je zaměřena např. aplikace CAIT - Computer-Assisted Indexing Tutor (National Agricultural Library) (viz http://www.nal.usda.gov/NewAlin/1995aprjun/arpjun1995/952cait.htm), jejímž účelem je praktický výcvik indexátorů.
- Viz např. firma SKIK V. Smetáčka - http://www.skik.cz a zejména rozhovor s ním: Jedličková, 2002
- Zpočátku se jednalo o cca 500 sémantických rysů (kódů) (Smetáček, 1982a:57), později o cca 630 (Smetáček, 1982b:17), resp. až 650 kódů (Uličný, 1987).
- Volně podle Smetáček, 1984b
- Databáze BALEX obsahovala lexikální jednotky, znaky selekčních jazyků a jejich ekvivalentní sémy. V polovině 80. let obsahovala databáze BALEX 82 000 českých a 93 000 anglických lexikálních jednotek (Smetáček a Kubešová, 1986:101). Blíže o databázi BALEX viz Smetáček a Kubešová (1986).
- "Tento postup [tvorba tezauru pomocí metody SEMAN] je pochopitelně při praktické aplikaci složitější a podklady, které vytvoří počítač, je třeba intelektuálně překontrolovat" (Smetáček, 1984:63).
- Např. experimentální verze, která pracovala s texty z elektroniky, obsahovala slovník 765 čtyřznakových koncových segmentů. Negativní slovník obsahoval 16 počátečních segmentů.
- Obsah databáze: