Indexování s využitím tezauru v maďarské praxi
Úvod
Tezaury (z latiny thesaurus) v různých jazycích jsou známy od středověku. Jednalo se o univerzální vědecké spisy, encyklopedická díla a zejména velké slovníky, nicméně v původním významu je tezaurus i výrazem pro pokladnici. Ostatně podle Ungváryho (2001) i „[v] počítačovém zpracování faktů a v jazykovědě tezaurus známe jako slovní zásobu nebo slovník”. Slovní zásoba v případě tezaurů znamená stručnou lexikologii, tj. sbírku slov. Ungváry (2001) dále uvádí, že „[v] jazykovědě – zvláště v generativní mluvnici – rozumíme tezaury slovníky, jež byly zhotoveny pro lingvistické použití; takové, ve kterých ke slovům připojujeme speciální sémantické, syntaktické a morfologické informace”. Pro tezaury je charakteristické shromažďování rozmanitosti, úplnosti či všech možných použití.
Tezaury jako slovníky lexikálních jednotek
V knihovnických systémech hrála vždy významnou roli identifikace dokumentů. Pro tento účel jsou využívány i tezaury, a to konkrétně v oblasti obsahové analýzy a vyhledávání dokumentů. Tezaury jsou řízené a měnitelné slovníky lexikálních jednotek (tj. deskriptorů a nedeskriptorů) a jsou založené na přirozeném jazyku. Lexikální jednotky v tezaurech reprezentují jednotlivé pojmy, přičemž podstatné je hledání nejvýznamnějších sémantických souvislostí mezi nimi. Lexikální jednotky mohou být složeny z písmen, čísel a jiných znaků (MSZ 3418-87). V tezauru jsou lexikální jednotky uváděny podle vzájemných vztahů (například nadřazenosti a podřazenosti).
Podle MSZ 3418-87 mohou lexikálními jednotkami, které slouží ke zpracování a vyhledání informací, být:
- odborný výraz (termín),
- kombinace termínů,
- vlastní jméno,
- jméno značky,
- zkratka.
Podle Platthyové (2009) jsou deskriptory obsahově a formálně zvláštní lexikální jednotky tezauru, mezi kterými vždy vyznačujeme nejvýznamnější pojmové souvislosti. Ungváry (2001) zdůrazňuje, že deskriptory jsou obecně takové výrazy, které můžeme používat jako selekční jazyk k popisu obsahu dokumentů.
V normě MSZ 3418-87 je uvedeno, že „[d]eskriptor je taková lexikální jednotka tezauru, která je bezprostředně použitelná ke zpracování a vyhledávání informací.”
Táž norma uvádí, že nedeskriptory jsou naopak vhodné pouze ke zpracování a vyhledávání informací prostřednictvím deskriptorů. Ungváry a Orbánová (2001) upřesňují, že nedeskriptory jsou takové výrazy, které mohou být synonymy nebo mohou být za synonyma pokládány. Nedeskriptory mohou být i speciální termíny.
Slovní zásoba tezauru
Deskriptory a nedeskriptory mohou být jednočlenné nebo mnohočlenné výrazy. Lexikální jednotky vždy uvádíme ve standardizovaném gramatickém tvaru daného vědního oboru. V jednotlivých vědních oborech může být způsob vyjadřování velmi komplikovaný, může se jednat o složeniny a syntagmata sestávající z více slov. Termíny vědních oborů můžeme užívat jako podstatné jméno nebo substantivní syntagma. V odůvodněných případech je povoleno i použití vlastních jmen.
Takto tvořené lexikální jednotky mohou být uvedeny:
- v nominálním tvaru (podstatné jméno, přídavné jméno, číslovka),
- v prvním pádě, tj. v nominativu (v nesklonné podobě),
- v jednotném čísle,
- jako nesklonné přívlastková syntagma či konstrukce místo skloňovatelného přivlastňovacího přívlastku (Ungváry, 2002).
Množné číslo výrazu můžeme používat tehdy, pokud neexistuje jednotné číslo daného výrazu nebo výraz v jednotném čísle má – oproti výrazu v množném čísle – odlišný význam. V maďarštině můžeme množné číslo používat v případě jazykové rodiny (např. u germánských jazyků) nebo k vyjádření jmen různých národů (Němci, Sikulové).
Zkratky používáme v odůvodněných případech, kdy jsou v praxi používány častěji než úplný tvar výrazu. V případě číslovek užíváme arabské číslice.
Lexikální jednotky mohou být mnohovýznamové výrazy (vyskytují se jevy homonymie i polysémie). Aktuální význam mnohovýznamových termínů uvádíme v závorkách za lexikálními jednotkami.
Obecně platí, že k lexikálním jednotkám je možné připojovat definice, vysvětlivky a poznámky. Poznámka upřesňuje konkrétní způsob použití lexikální jednotky, vysvětlivka a definice zase popisují přesný význam lexikální jednotky. Vysvětlující poznámkou může být i známý cizojazyčný ekvivalent daného výrazu.
Principy selekce obsahově autentické lexikální jednotky jsou následující (Ungváry, 2002):
- jednoznačnost,
- spolehlivost,
- stručnost a výstižnost,
- použitelnost,
- vhodná pojmová kategorie.
Jednoznačnost znamená, že vybraná lexikální jednotka je srozumitelná i bez kontextu, tedy sama o sobě.
Výběr lexikální jednotky je spolehlivější, je-li specifický a vyjadřuje-li přesně obsah dokumentu.
Lexikální jednotky se musí nacházet ve stručné a přesné formě, např. místo syntagmatu stavbabytů je vhodnější uvést výraz bytovávýstavba.
Lexikální jednotky splňují podmínky v širokých kruzích známého jazykového úzu (terminologie) vědního oboru (odborný slang musíme opominout).
V dokumentu může být stejný předmět charakterizován různými pojmovými kategoriemi. Těmi mohou být například proces/působení, materiál/surovina, zařízení/stroj/nástroj/předmět, živočich/člověk či vlastnost/stav (Ungváry, 2002).
Lexikální jednotku vždy vybíráme v souladu s pojmovou kategorií, o níž předmět nebo problém dokumentu pojednává (např. filmovací přístroj [kategorie stroje/nástroje], filmování [kategorie procesu]).
V případě výrazů, které se vyskytují velmi často a jsou příliš obecné, musíme tyto výrazy specifikovat tak, že je kombinujeme s jinými výrazy. Tímto způsobem tvoříme složené termíny. Příliš specifické nebo zřídkakdy se vyskytující výrazy je naopak potřeba zobecnit. V tomto případě k nim připojíme synonyma nebo výrazy souznačné (Ungváry, 2001).
Existují obory, v nichž se pro nedostatek výrazů využívají perifráze. Ty však nemohou být lexikálními jednotkami, proto musíme místo perifrází tvořit termíny.
Podle Plathyové (2009) lexikální jednotky vždy vytváříme s využitím aktuálních informačních pramenů obsahujících důležité informace z daného oboru.
Vícejazyčný tezaurus
V případě vícejazyčného tezauru se snažíme vytvořit samostatný způsob označení, který je nezávislý na jazyku, protože partnerské používané pojmové systémy a soustavy znaků mohou být rozdílné. Tato rozdílnost také představuje hlavní problém při přípravě vícejazyčného tezauru. Znamená to, že překlady – jsou-li budované na stejné struktuře – nebo relace mezi stejnými pojmy se v různých jazycích liší.
Podle Förhécze a Mészárose (2007) najdeme v případě, kdy je struktura jednotná a vícejazyčnost znamená jenom překlad pojmů, v různých jazycích synonyma a vytvoříme symetrický tezaurus.
Jestliže jsou ovšem ve vícejazyčném tezauru vztahy mezi jednotlivými lexikálními jednotkami, které reprezentují pojmy, odlišné nebo jestliže některé pojmy (ani lexikální jednotky, které je reprezentují) neexistují v každém jazyce, vzniká tezaurus asymetrický.
Proti symetrickému tezauru stojí několik faktů: Termíny nelze vždy přeložit do jiného jazyka. V tom případě se snažíme tvořit nové výrazy, syntagmata. Není-li to možné, vytvoříme k reprezentaci výrazu nový pojem. Existují taktéž problémy s tím, že pojmový systém je v různých jazycích divergentní. Například v Maďarsku tiskárnu zařadíme do průmyslu, ale v západní Evropě ji zpravidla zařadí do oblasti médií. Takové odchylky se ovšem vyskytují zřídka. V případě, že nastanou, používáme jednotnou strukturu, ale jednotlivé odchylky označíme (Förhécz, 2007).
Sémantika tezauru předpokládá, že každý pojem má autentické označení. To znamená i to, že v překladu tezauru používáme označení pojmu, které je v daném případě akceptované. Navíc je v každém jazyce potřeba shromáždit synonyma daných výrazů (Förhécz, 2007).
Tezaurus Národní knihovny Széchényího v Maďarsku
V Maďarsku bylo zhotoveno již více než padesát tezaurů, reálně je jich používáno přibližně dvacet (Ungváry, 2001). První tezaurus (všeobecných technických pojmů) byl zhotoven v roce 1970. V následujících letech byly zhotovovány další tezaury, například v letech 1972 až 1973 se jednalo o tezaurus pojmů výpočetní techniky a informatiky. V roce 2000 byl dokončen tezaurus Národní knihovny Széchényího. V maďarštině nese název OSZK-thesaurus, jedná se o tzv. Veřejný tezaurus. Má více verzí, verze 3.0 byla dokončena na konci roku 2002.
Veřejný tezaurus má důležité dodatky:
- tzv. „Taxaurus” obsahuje pojmy živočichů, vnitřních orgánů a tkání,
- „Geotaurus a Geohistaurus” obsahují geografické a historicko-zeměpisné pojmy užívané od starověku dodnes (Ungváry, 2002).
Maďarský tezaurus je určen pro veřejné knihovny a je vytvořen v souladu s mezinárodní normou ISO 2788-86 a maďarskou normou MSZ 3418-87.
Veřejný tezaurus je univerzální tezaurus, který je zaměřen na oblasti techniky, agronomie, ekonomie, přírodovědy a společenských věd. Je vhodný k indexaci monografií, periodik, tiskovin, plakátů, audiovizuálních dokumentů, skladeb, divadelních dokumentů, antických knih, manuskriptů, podnikových a jiných publikací (Ungváry, 2002). Tentýž autor podotýká, že do tezauru byly zařazeny zejména důležitější výrazy, které jsou využitelné k indexaci a vyhledávání dokumentů ve veřejných knihovnách. Uvádí také, že jednotlivé výrazy se objevují v různých formách.
Lexikálními jednotkami v tezauru mohou být:
- odborné výrazy (např. údajová základna, zátopa, hodnota),
- vědní obory, vědecké disciplíny (např. agronomie),
- působení (např. nákup, doprava),
- výrobky, zboží, materiály, předměty, stroje, zařízení (např. potravina, vozidlo, oblečení),
- rostlina, zvíře, orgán (např. ovoce, pes, část těla, sval),
- instituce, korporace, organizace, obchody, pohostinské podniky (např. soud, gymnázium, restaurace),
- lid, etnická skupina, jazyky (např. Sikulové, Židé, švédština),
- čas, doba, období (např. novověk, renesance),
- formální výrazy (např. dokumentární film, román, hudební dílo),
- duchovní řád (např. benediktýn) .
Vlastní jména jsou pouze dvojí:
- země, geografické jména, historicky zeměpis (např. Rakousko, Evropa),
- posvátné knihy, které jsou i v Mezinárodním desetinném třídění (např. Bible, Tóra).
- FÖRHÉCZ, András, MÉSZÁROS, Tamás, 2007. Többnyelvű tezaurusz építése és szolgáltatása webes környezetben. In Networkshop2007 [online]. [cit. 2009-11-09]. Dostupné z: http://nws.niif.hu/ncd2007/docs/ehu/107.pdf
- MSZ 3418-87. Magyarnyelvűinformációkeresőtezaurusz.Szerkezete,részeiésformái. Budapest: Magyar Szabványügyi Hivatal.
- PLATTHY, Zsuzsanna, 2009. Atezauruszfelépítése,használata [online]. [cit. 2009-11-09]. Dostupné z: http://hetenyi-eu.sulinet.hu/tezaurusz_html/tez/bevezeto.html
- UNGVÁRY, Rudolf (összeáll.), 2000. OSZK Tezauruszalkalmazásiéskarbantartásiszabályzat [online]. . Budapest [cit. 2009-11-09]. Dostupné z: http://mek.oszk.hu/00000/00075/doc/alkalmaz.doc
- UNGVÁRY, Rudolf (főszerk.), 2002. OSZKTEZAURUSZ/KÖZTAURUSZ:AzOrszágosSzéchényiKönyvtárésaközművelődésikönyvtárakátfogótezaurusza [online]. 3.0 változat. Budapest: MKE-OSZK [cit. 2009-11-09]. Dostupné z:
- http:// mek.oszk.hu/00700/00769/html
- UNGVÁRY, Rudolf, 2004. Tezaurusz és ontológia avagy a fogalmi ismertetőjegyek generikus öröklődésének formalizálása. TudományosésMűszakiTájékoztatás [online]. 2004, 51(5) [cit. 2009-11-09]. Dostupné z: http://tmt.omikk.bme.hu/show_news.html?id=3615&issue_id=450
- UNGVÁRY, Rudolf, ORBÁN, Éva, 2001. Osztályozásésinformációkeresés:kommentáltszöveggyűjtemény[online]. Budapest: OSZK [cit. 2009-11-09]. Dostupné z: http://mek.niif.hu/01600/01683/pdf/01683-1.pdf (1. köt. Az osztályozás és elmélete) a http://mek.niif.hu/01600/01683/pdf/01683-2.pdf (2 köt. Az információkeresés és elmélete)