Aktualizace tezauru EUROVOC a poloautomatická reindexace
1. ÚVOD
Tezaurus EUROVOC je vícejazyčný polytematický tezaurus Evropského parlamentu [5] (EP) a Úřadu pro oficiální publikace Evropských společenství (Office for Official Publication of the European Communities – OOP EC). Kromě těchto dvou institucí je používán také v četných národních parlamentních a jiných odborných knihovnách zemí Evropské unie (EU), ale i v zemích, které zatím členy EU nejsou. V Parlamentní knihovně ČR [6] byla na jaře r. 1998 dokončena česká jazyková verze tezauru EUROVOC [7], která byla ihned po dokončení implementována do knihovnického systému TINLIB.2. AKTUALIZACE
Každý tezaurus klade velké nároky na správu, údržbu a aktualizaci. V případě vícejazyčných tezaurů to platí dvojnásob.Co se týče tezauru EUROVOC, lze jeho aktualizaci a správu rozdělit do dvou základních úrovní:
1. Aktualizace na mezinárodní úrovni
2. Aktualizace na národních úrovních (české národní úrovni)
2.1. Aktualizace na mezinárodní úrovni
Aktualizace na mezinárodní úrovni je plně v kompetenci EP a OOP EC, který je držitelem autorských práv. Za tímto účelem byl zřízen již v roce 1989 tzv. Výbor uživatelů EUROVOCu, který má právo navrhovat změny v originálním tezauru a tzv. Maintenance Unit, která tyto změny analyzuje a případně je zapracovává do nové verze tezauru. Počáteční nadšení obou těchto orgánů však brzy upadlo a v dnešní době k aktualizaci tezauru EUROVOC na mezinárodní úrovni v podstatě nedochází. Podle vyjádření šéfa Maintenance Unit A. Pereiry (na posledním setkání uživatelů EUROVOCu v Bruselu v létě roku 1998) za poslední rok evidovala Maintenance Unit jediný návrh na aktualizaci tezauru. Situace je o to složitější, že EP ani OOP EC doposud nemá k dispozici potřebný softwarový nástroj na správu tezauru (thesaurus management software), bez kterého je správa tezauru značně neefektivní. Na tvorbě tohoto nástroje se v současné době pracuje. Je nutno podotknout, že situace v zemích, které nejsou členy EU, je ještě podstatně méně příznivá.2.2. Aktualizace na národní úrovni
Vzhledem k výše popsanému stavu můžeme hovořit pouze o jednotlivých národních správách tezauru EUROVOC. V jednotlivých zemích přistupují k této problematice odlišně. Např. v polské parlamentní knihovně [8] tezaurus EUROVOC přejali a upravili ho pro vlastní národní potřeby takovými zásahy do struktury i lexika tezauru, že polská verze EUROVOCu [9] do značné míry postrádá kompatibilitu s původním tezaurem.Parlamentní knihovna zvolila poněkud jinou cestu. Originální struktura EUROVOCu je zachována v původní podobě, česká jazyková verze je s ní plně kompatibilní. Existují však typicky české reálie a tematické okruhy, které jsou obsaženy v dokumentech zpracovávaných v českých knihovnách a informačních institucích. Proto je originální EUROVOC v AIKS TINLIB doplněn souborem dalších lexikálních jednotek. (označme jej pracovně jako český doplňkový tezaurus). Termíny, které jsou součástí tohoto souboru, se vyskytují zcela mimo strukturu originálního EUROVOCu nebo mohou být do stávající struktury zařazeny na nejnižších, zatím neobsazených úrovních. Toto řešení bylo umožněno uzavřením licenční smlouvy, kterou jsme po jednání s OOP EC, vlastníkem autorských práv, získali. V rámci této licence byla kromě vytvoření české verze a integrace EUROVOCu do informačního systému Poslanecké sněmovny Parlamentu ČR [10] (PSP ČR) poskytnuta také možnost aktualizovat český překlad podle dalších změn a dodatků v originálních verzích EUROVOCu. Kromě jiného umožňuje licence distribuovat českou verzi EUROVOCu s jedním propojovacím jazykem (angličtina) i ostatním případným uživatelům. Uzavření licenční smlouvy s OOP EC je významné zejména proto, že byly vytvořeny potřebné administrativní podmínky pro distribuci české verze tezauru EUROVOC a pro koordinaci správy tezauru na národní úrovni.
V AIKS TINLIB v Parlamentní knihovně je originální EUROVOC implementován ve čtyřech jazycích (čeština, angličtina, němčina a francouzština) současně s českým doplňkovým tezaurem. Všechny lexikální jednotky jsou označeny kódy, které identifikují, zda je termín součástí EUROVOCu nebo doplňkového tezauru. Termíny s kódy jazyků (DE, EN, FR, CZ) jsou deskriptory a nedeskriptory originálního EUROVOCu. Označení QU kvantifikátor a NE tzv. neeurovocký výraz. Pouze u termínů označených kódem NE se předpokládá jejich zařazení do stávající struktury originálního EUROVOCu, deskriptory s kódy ID a QU jsou strukturovány samostatně (na originální EUROVOC neexistují žádné sémantické vazby).
Návrhy na nové deskriptory provádějí samotní indexátoři podle aktuálních indexačních potřeb. Identifikátory typu vlastních jmen jsou zařazovány do doplňkového tezauru bez prodlení. Ostatní návrhy na neeurovocké deskriptory či nedeskriptory, identifikátory a kvantifikátory se do TINLIBu zavádějí formou kandidátů (s označením \\xkan\). V určitých časových intervalech probíhá výběr a posouzení těchto nově navržených lexikálních jednotek a jejich případné zařazení do struktury tezauru.
2.3. Technické aspekty aktualizace a správy tezauru
Doposud probíhala správa tezauru EUROVOC v Parlamentní knihovně v software TAT [11], který byl používán při překladu originální verze tezauru a pro import tezauru do TINLIBu. Poté probíhala správa tezauru v obou systémech, jejichž nevýhody bylo nutno ještě kompenzovat dalšími podpůrnými softwary (např. textovými editory). Tento způsob správy však již není do budoucna možný vzhledem k rozsáhlejší aplikaci tezauru v informačním systému PSP ČR. EUROVOC je kromě TINLIBu implementován také ve fulltextových databázích PSP ČR, kde je používán pro podporu formulace uživatelským dotazů, zatím pouze v experimentální fázi. Uvažuje se také o jeho dalším použití v jiných databázích a systémech, nejnověji např. v systému evidence a třídění došlých petic a podání v oddělení stížností Kanceláře Poslanecké sněmovny Parlamentu ČR [12] (KPS). Protože každá s těchto aplikací je provozována v jiném softwarovém prostředí (Informix, Lotus Notes, TINLIB), jsou za současného stavu kladeny nemalé technické nároky na správu tezauru a na komunikativnost správcovského softwaru s ostatními aplikacemi. V současnosti se tento problém řeší ve spolupráci s odborem informatiky KPS [13]. Základní koncepce funkčnosti TMS spočívá v myšlence, že v rámci jednotného informačního systému PSP ČR bude tezaurus spravován a uložen v jediné databázi a ostatní aplikace, ve kterých se bude používat – knihovnický systém, fulltextové databáze, evidence petic, s ním budou komunikovat.3. REINDEXACE
V Parlamentní knihovně se v databázi TINLIB používá tezaurus od r. 1993 (indexovány jsou záznamy všech dokumentů publikovaných od r. 1990 a výběrově starší publikace). V té době byl do databáze implementován značně omezený a nepřesný překlad tezauru EUROVOC ve druhé verzi. K němu byly v průběhu doby přičleňovány další termíny podle aktuálních potřeb věcného zpracování. Tyto termíny se později staly základem pro již zmíněný doplňkový tezaurus. Starou verzí tezauru bylo indexováno přibližně 10 000 záznamů monografií. V souvislosti s implementací nové verze tezauru EUROVOC bylo nutno rozhodnout o tom, zda tyto záznamy zůstanou v původním stavu (tj. indexovány předchozí verzí tezauru) nebo budou novou verzí reindexovány.Obecně je při rozhodování o provedení reindexace nutno vzít do úvahy následující varianty:
A. Záznamy indexované předchozí verzí jsou ponechány beze změny
. Tento postup má své opodstatnění pouze tehdy, pokud je splněna nejméně jedna z následujících podmínek:1. změny lexika a struktury tezauru mají omezený rozsah, nedošlo k výraznějším změnám počtu lexikálních jednotek a k podstatnému posunu významů jednotlivých deskriptorů;
2. počet záznamů v databázi je příliš veliký (řádově statisíce), náklady na reindexaci všech záznamů by byly značné; v tomto případě je efektivnější jednotlivé změny vyznačit přímo do tezauru (informace o kvalitě, rozsahu a datu změny je v mnoha tezaurech uváděna v poznámce) a rozdíly mezi jednotlivými verzemi řešit na úrovni formulace rešeršního dotazu
3. záznamy indexované předchozí verzí nereprezentují živý fond nebo využívanou literaturu.
V Parlamentní knihovně nebyla splněna ani jedna z výše uvedených podmínek. Změny v aktuální verzi tezauru EUROVOC mají velký rozsah - formu nebo obsah změnilo cca 40-50% termínů, struktura se změnila ze 60-70%. Počet indexovaných záznamů je cca 10 000 a jedná se o nejnovější fond, který je značně využíván.
B. Automatická reindexace
Plně automatická reindexace vyžaduje provedení komplexní analýzy všech změn v aktuální verzi tezauru a vytvoření složitých algoritmů a programových aplikací. Vzhledem k tomu, že změny v tezauru mají často velice komplexní povahu (změny významu, rozsahu, obsahu nebo struktury deskriptoru, které nelze snadno algoritmizovat), je využití tohoto procesu velmi nákladné a problémové. Tvorba procedur, které by dokázaly v případě uvedených změn vyhledat automaticky ekvivalentní deskriptory v nové verzi tezauru, předpokládá využití metod umělé inteligence nebo prvků expertního systému. Takové řešení by bylo přijatelné pouze v případě, pokud by se reindexace prováděla v daném objemu změn opakovaně. V jiných případech by náklady na přípravu automatické reindexace několikanásobně převýšily náklady na reindexaci manuální nebo poloautomatickou.C. Manuální reindexace
Manuální (intelektuální) reindexace je nejjednodušším způsobem reindexace, je však časově náročná a klade nemalé požadavky na pracovní síly. Ve většině případů ji nelze zvládnout v běžné pracovní době. Tento postup také klade značné nároky na organizaci práce zejména z hlediska udržení systematičnosti a konzistence reindexace.D. Poloautomatická reindexace
Poloautomatická reindexace je založena na předpokladu, že je možno jednoduchým způsobem využít automatické komparace dvou tezaurů pro nalezení jejich formálních změn nebo shod jako podkladu pro intelektuální reindexaci. Poloautomatickou reindexací lze vytvořit pro reindexátory optimální pracovní podmínky v tom smyslu, že rutinní práci, kterou lze realizovat programově, přebírá stroj a reindexátor se může soustředit na intelektuální analýzu vyhledaných změn.Tento postup se jeví v Parlamentní knihovně pro aktualizaci selekčních obrazů dokumentů [selekční obraz dokumentu – soubor deskriptorů, které jsou použity pro indexaci daného dokumentu a vyjadřují jeho téma] na základě nové verze tezauru jako jediné schůdné řešení. V současnosti (prosinec 1998-leden 1999) probíhá testování celého procesu poloautomatické reindexace, který je rozdělen do následujících fází:
I. Automatická komparace změn
(provádí se ve spolupráci s odborem informatiky KPS). Cílem této fáze je identifikovat formální kompatibilitu (popř. inkompatibilitu) jednotlivých lexikálních jednotek ze dvou verzí tezauru (druhá a třetí verze EUROVOCu). Výstupem první části poloautomatické reindexace bude několik datových souborů, které budou obsahovat jednotlivé lexikální jednotky na základě následujícího rozdělení:Soubor č. 1 - formálně shodné deskriptory - soubor obsahuje všechny deskriptory z druhé verze, které byly použity pro indexaci a zároveň se vyskytují v třetí verzi, a souběžně totožné deskriptory z třetí verze.
Soubor č. 2 - deskriptory obsažené pouze v předcházející verzi tezauru - soubor obsahuje všechny deskriptory z druhé verze, které byly použity pro indexaci a nejsou obsaženy ve třetí verzi. Vypracována byla obecná typologie možných změn.
Soubor č. 3 - deskriptory se změnou statutu - soubor obsahuje všechny deskriptory z druhé verze, které byly použity pro indexaci a které ve druhé verzi figurují jako nedeskriptory, příslušné nedeskriptory z třetí verze a odpovídající deskriptory z třetí verze. Obdobně v případě opačné změny tj. nedeskriptor ->deskriptor.
II. Intelektuální analýza
Soubory dat předpřipravené v procesu automatické komparace a rozdělené podle jednotlivých kritérií jsou intelektuálně analyzovány a upravovány. Cílem intelektuální analýzy je posoudit, nakolik jsou jednotlivé lexikální jednotky v obou verzích tezauru věcně kompatibilní (popř. inkompatibilní). Reindexátoři dostanou k dispozici výše uvedené datové soubory, v nichž posoudí jednotlivé lexikální jednotky podle daných kritérií a upraví je podle specifických reindexačních pravidel. Výhodou tohoto postupu je, že jednotlivé položky se nereindexují ze strany záznamů dokumentů, tzn. že reindexátor nemusí posuzovat všechny záznamy monografií indexované předcházející verzí a jednotlivě je reindexovat (tak by tomu bylo v případě manuální reindexace). Ve zvolené variantě reindexace se jedná o úpravy na úrovni deskriptorů. Stanovená struktura dat umožňuje porovnávat nejen změny, ke kterým došlo v deskriptorovém odstavci dané lexikální jednotky (tj. změny paradigmatických vztahů v rámci dvou verzí tezauru), ale také posuzovat názvy indexovaných dokumentů. Posouzení četnosti použití daného deskriptoru a určení rozsahu změny jeho obsahu nebo rozsahu mj. také na základě indexovaných knih usnadňuje rozhodnutí o stupni reindexace:1. V nejjednodušším případě je deskriptor vyskytující se v obou verzích tezauru shodný z hlediska jeho formy i struktury; z hlediska významu a rozsahu deskriptoru pak můžeme hovořit o totožných lexikálních jednotkách. Tyto deskriptory není nutno v intelektuální fázi dále upravovat.
2. Pokud se změnila struktura deskriptorového odstavce (změnily se hierarchické, asociační nebo ekvivalenční vztahy), je potřeba posoudit, nakolik tato změna struktury ovlivnila význam nebo rozsah deskriptoru. Pokud nedošlo k významnějšímu posunu těchto charakteristik deskriptoru, lze dané lexikální jednotky považovat za ekvivalentní a dále postupovat jako v předchozím případě.
3. Pokud tomu tak není, tzn. že deskriptor podstatně změnil svůj význam nebo rozsah (je zařazen do odlišné sémantické sítě), je nutné nalézt odpovídající doplňkové deskriptory, které budou modifikovat význam daného deskriptoru tak, aby nabyl přibližně původního rozsahu.
Intelektuální analýza je nejdůležitější a časově nejnáročnější fází poloaumatické reindexace, nicméně je nezbytným předpokladem pro kvalitní úpravu původní indexace a v konečném důsledku předpokladem pro zajištění adekvátního výkonu a odezvy informačního systému a pro snížení selekčního šumu.
III. Import souborů do databáze
Soubory připravené v předchozích dvou krocích lze po menších úpravách technického rázu importovat do databáze.IV. Úpravy záznamů dokumentů - modifikace syntagmatických vztahů
[syntagmatické vztahy – vztahy mezi deskriptory, které vyjadřují téma daného dokumentu; tyto vztahy jsou na rozdíl od paradigmatických vztahů závislé na konkrétním dokumentu; blíže viz ČSN 01 0193 Dokumentace. Pokyny pro vypracování a rozvíjení jednojazyčných tezaurů. Účin. leden 1996, s. 3.]Výsledkem poloautomatická reindexace není zcela konzistentní databáze záznamů dokumentů, jejichž selekční obrazy by zcela odrážely aktuální stav tezauru. V případě, kdy reindexace probíhá ze strany deskriptorů, lze v maximální možné míře posoudit a upravit pouze změny paradigmatických vztahů v tezauru [paradigmatické (apriorní) vztahy - vztahy mezi lexikálními jednotkami v tezauru, které jsou nezávislé na dokumentu, protože jsou všeobecně uznávány a mohou být ověřeny ve standardních pramenech; blíže viz ČSN 01 0193 Dokumentace. Pokyny pro vypracování a rozvíjení jednojazyčných tezaurů. Účin. leden 1996, s. 3.], což se může u některých dokumentů projevit zkreslením jejich původního selekčního obrazu. Vybrané dokumenty je proto nutné reindexovat v další fázi, kdy se posuzují jednotlivé selekční obrazy dokumentů na základě syntagmatických vztahů a doplňkově se reindexují jednotlivé záznamy. Objem jednotlivě reindexovaných záznamů však již není vzhledem k předchozím úpravám příliš velký (v Parlamentní knihovně se jedná cca o 10% indexovaných dokumentů).
4. ZÁVĚR
Zvolený postup reindexace byl v Parlamentní knihovně otestován na konci r. 1998. Byly připraveny testovací soubory, na kterých byl celý proces ověřen. Z databáze TINLIB byly vyexportovány soubory dat, které budou pro potřeby automatické komparace zpracovány v odboru informatiky KPS. Intelektuální komparace bude probíhat v prvním, popř. druhém čtvrtletí tohoto roku (1999) a celá databáze bude plně reindexována přibližně v polovině roku 1999. Všem zájemcům rádi poskytneme podrobné informace o výše popsané metodologii, včetně např. úplnější ukázky datových souborů, specifikace reindexačních pravidel nebo dílčích technických a organizačních aspektů.5. REFERENCE
Vzhledem k tomu, že k problematice reindexace existuje pouze minimum dostupné odborné literatury, budeme vděčni za zaslání [14] případných citací nebo jiných informací.1. GOMIBUCHI, T. Construction of JICST Scientific and Technological Thesaurus 1993 [in Japanese]. Joho Kanri=Journal of Information Processing and Management, 1993, vol. 35, no. 11, pp. 953-965. (ISSN: 0021-7298).
2. HARDY, P. Computer-aided indexing of technical manuals. Indexer, 1986, vol. 15, no. 1, pp. 22-24.
3. HARRIS, J. L. The cumulative index to the Annual Review of Information Science and Technology. Indexer, 1978, vol. 11, no. 1, pp. 24-32.
4. JONES, A. L. Art Institute of Chicago reindexes on-line catalog (integrating INNOPAC title index with series index and author index with subject index; reprinted from ACRL Arts Newsletter, Spr `90). The Unabashed Librarian, 1991, no. 79, p. 6. (ISSN:0049-514X)
5. KIRTLAND, M. Integrating borrowed records into a database: impact on thesaurus development and retrieval. Database, 1980, vol. 3, no. 4, pp 26-33.
6. LANDRY, B.C. Indexing and abstracting. IV : an indexing and re-indexing simulation model. In Proceedings of the 33rd Annual Meeting of the American Society for Information Science. Philadelphia, 1970.
7. PATTIE, L. W. Database reindexing at the University of Kentucky Libraries. Technicalities, 1990, vol. 10, pp. 7-9. (ISSN:0272-0884)