Polytematický strukturovaný heslář a vyhledávání v ALEPHu
1. Historie PSH
Polytematický strukturovaný heslář se u nás objevil již na začátku 90. let. Na jeho vzniku se tehdy významným způsobem podílela Státní technická knihovna, ale spolupracovala přitom i s jinými institucemi hlavně z akademické sféry. Více informací bylo možno vždy najít na stránkách této knihovny, nyní Národní technické knihovny.
Z informačního (lépe řečeno technického) hlediska je Polytematický strukturovaný heslář slovník s tezaurovými vazbami. Označení tezaurus se pro něj nepoužívá, neboť obsahuje velmi širokou (polytematickou) oblast termínů. Snad jedině kdysi na webu Státní technické knihovny byl na anglických webových stránkách pro odkaz do Polytematického strukturovaného hesláře použit termín Thesaurus.
V zásadě se tezaurus odlišuje od obyčejného slovníku definovanými relacemi, tedy vazbami mezi jednotlivými termíny. A právě přehledné a srozumitelné provedení relací bývalo úskalím jednoduché počítačové implementace tezaurů do doby, než se rozšířil web. Prokliknutelné odkazy na webových stránkách mohou velmi jednoduše ilustrovat vazby mezi termíny tezauru. Velmi názorně onu situaci ukazuje implementace Polytematického strukturovaného hesláře na webových stránkách ČVUT.
Asi hlavní přínos tezaurových vazeb ve slovnících (heslářích) spočívá pro nezasvěceného uživatele v lepším pochopení významu termínu a jeho začlenění do souvislostí. Dalo by se říci, že tezaurové vazby mohou uživatelům zprostředkovávat určitou znalost nejzákladnějších reálií mnohdy specifických pro určitou oblast. Příkladem termínu, jehož použití možná někoho v úvodu druhého odstavce článku překvapilo, je heslo informatika. Použití tohoto termínu se u nás vyvíjelo poněkud nestandardně. Prapůvodně se u nás pod informatikou rozuměla informační věda (týkající se informačních procesů, informačních fondů, celého knihovnictví atd.). S koncem 80. let si termín "informatika" snažili přivlastnit matematici, přesněji řečeno lidé pracující v oblasti teorie množin a algoritmů. Toto pojetí označitelné nejlépe jako matematická informatika snad souviselo se snahou některých čistě teoreticky zaměřených matematiků získat podporu věnovanou nastupujícímu rozvoji počítačů i pro velmi vzdáleně související problémy ze základů matematiky. A po roce 1989 se pod vlivem zahraničí začalo prosazovat pojetí informatiky chápané jako výpočetní technika.
A právě o tomto může člověk získat povědomí z přehledně přístupného
hesláře PSH na ČVUT. Ba co více, přístupnost i starých verzí PSH umožňuje ilustrovat právě popsanou "historii informatiky u nás", viz verze PSH:
informatika (1.3)
informatika (1.4)
informatika (2.1)
Přístupnost hesláře PSH na ČVUT umožňuje taktéž vyhledávání termínů v příslušné verzi Polytematického strukturovaného hesláře. Takový, ač na první pohled poměrně jednoduchý, systém se dá chápat jako plnohodnotný informační systém pro heslář PSH.
Srovnáme-li tento systém s tezaury poměrně složitě implementovanými v některých databázových anebo přímo knihovních systémech, chybí mu jedna zásadní funkčnost – možnost snadného použití termínu z tezauru pro vyhledávání v (hlavní) databázi spravované systémem. A právě tento nedostatek lze odstranit vhodným webovým agentem.
2. Využití webového agenta
Vznik agenta k PSH je trochu podivný. Původně jsem si myslel, že bzch tento problém mohl zadat jako seminární práci studentům magisterského studia Znalostního inženýrství - abych si ho nakonec cvičně vypracoval sám. Webový agent přečte vždy webovou stránku z PSH.CVUT.CZ a pouze doplní k hlavnímu termínu oné stránky rešeršní odkaz do systému ALEPH na VŠE (do souhrnné databáze SOUKAT). Takto (z hlediska výuky) ilustrativně s odkazy do knihovní databáze byl PSH přístupný v STK, dokud provozovali svůj systém pod DataFlexem. Přechodem na Aleph a hlavně při letošním stěhování pak tato možnost chyběla. (O jejím novém zprovoznění bude samozřejmě ještě zmínka.)
Samotná implementace zmíněného agenta PSH musela zahrnovat některé úpravy řetězců převzatých ze stránek PSH pro využití v odkazech do ALEPHu. Především na VŠE (ale nyní snad i všude jinde) ALEPH požaduje znaky s diakritickými znaménky uvádět v kódu UTF-8. Zmíněné stránky hesláře PSH na ČVUT jsou však v kódu ISO-8858-2 a je třeba se nějak vypořádat s převodem znaků. Zvolen byl nejjednodušší způsob jejich prostého odstranění a zadávání dotazových řetězců bez háčků a čárek. Přesněji řečeno pro všechny české znaky s diakritickými znaménky se sekundární řadicí platností. A protože primární řadicí platnost mají (kromě ch) v češtině pouze písmena č, ř, š, ž, jen tyto znaky jsou převedeny z kódu ISO-8859-2 do UTF-8. (I když i to je zbytečné, protože ani tyto znaky na rozdíl od Národní knihovny ALEPH na VŠE při dotazech neodlišuje od znaků c , r , s , z.) Další otázkou je, zda se textové řetězce mají ještě nějak "normalizovat", aby se daly použít přímo jako hodnota v parametru &request= pro funkci find-e , samozřejmě kromě nahrazení mezery (či více mezer) znakem + . Jedná se například o odstraňování předložek jako k , v , s a pak interpunkčních znamének. Zatímco třeba čárka v dotazovém řetězci je odstraněna, předložky i spojky byly nakonec v dotazu ponechány především kvůli zvýšení přesnosti vyhledávání.
Obecně nejzávažnější je ovšem otázka, jakou vyhledávací funkci a hlavně s jakými parametry použít pro vyhledávání v ALEPHu. Na VŠE bylo jednoduché zvolit univerzální vyhledávaní v souhrnné databázi SOUKAT s parametrem &adjacent=Y čili respektovat přesně vzdálenost slov (včetně případných spojek i předložek). A právě kvůli možné diskuzi o variantních odpovědích na uvedené otázky byl původní agent PSH rozšířen o možnost, kdy si každý uživatel může při jeho spuštění sám zvolit tvar dotazu (tedy jeho celé URL včetně parametrů) doplňované pak agentem k termínům hesláře jako odkazy do ALEPHu.
3. Volba vlastních odkazů
Při úvodní aktivaci webového agenta psh si každý uživatel může zadat svůj odkaz do (svého) ALEPHu, který mu pak agent doplní ke všem termínům hesláře. Přesněji řečeno, zadaný URL odkaz musí obsahovat parametr &request= , a to nejlépe zcela na konci. (V opačném případě je URL v onom místě ukončeno.) Často je možno jednoduše zadat konkrétní dotaz do ALEPHu a URL získaného výsledku zkopírovat do zadání. Speciálně parametry dotazu popisující vzdálenost slov, případně jméno databáze je někdy potřeba přesunout před zmíněný parametr &request= .
URL specifikace získané z konkrétního dotazu v ALEPHu vždy obsahují dlouhou specifikaci seance. Webový agent tuto situaci nijak neřeší a záleží na uživateli, jak URL pro dotazy zadá. Zadané URL se totiž při každé činnosti přenáší k agentovi pomocí cookies. Cookies jsou speciální proměnné, které se objevily již u prvního prohlížeče Netscape. Tuto zvláštní proměnnou si webový prohlížeč je schopen (po zaslání ze serveru) uložit zpravidla na disk a při každé další interakci s určeným webovým serverem mu ji stále znovu zasílá. A právě tímto způsobem se agent psh vždy dozví, jaké URL má k termínům doplňovat. Životnost těchto cookies (tj. zadaného URL) je vždy dvě hodiny. Do této doby (při obvyklém nastavení webového klienta) není potřeba znovu zadávat URL dotazu, a to ani po ukončení práce webového klienta. Naopak, když chce člověk změnit používané URL pro odkazy, je nejlepší ručně vynulovat obsah cookies - konkrétně ta cookies, které jsou spojena s IP adresou počítače, na němž běží agent psh.
Uvedené snad zároveň vysvětluje, že po dobu životnosti cookies a hlavně životnosti seance v ALEPHu lze využívat URL, které obsahuje i specifikaci seance v ALEPHu. To je například výhodné pro implementace ALEPHu, kde pouze v rámci seance můžeme definovat některé specifické parametry. Pro jiné než experimentální používání agenta je ale nejvhodnější připravit si "odladěné URL" ve formě HTML souboru obdobně, jako to je pro NTK (dříve STK) na http://4izi.vse.cz/~jjkastl/psh/NTK anebo pro NKP na http://4izi.vse.cz/~jjkastl/psh/NKP.
Oba uvedené příklady jsou záměrně analogické tomu, co Národní technická knihovna zprostředkuje na své stránce "Prohlížení PSH" (při kliknutí na některý termín hesláře). Pokud si někdo srovná výsledky uváděné na této stránce NTK s výše připravenými URL specifikacemi dotazů do ALEPHu, zjistí drobné odlišnosti. Třeba již druhý termín "architektura a urbanismus" nejvyšší úrovni hesláře (poslední verze 2.1) dává jak v databázi STK Národní technické knihovny, tak v databázi NKC Národní knihovny vždy o jeden záznam rozdílné výsledky.
Pro databázi STK jsem totiž použil původní aspekt PSH (tedy parametr &find_code=PSH), jak tomu bývalo pod DataFlexem. Ten je ale nyní v záznamech explicite uváděn v podpoli a možná je zamýšleno preferovat obecnější WKW. Jeden ze záznamů týkající se architektury a urbanismu má ovšem u předmětového hesla (pole 650) v podpoli 2 omylem uvedeno sph:
···
24500 |a Projektil 2002/2008 / |c Roman Brychta ... [et al.]
260 |a V Praze : |b Galerie Jaroslava Fragnera, |c 2008
300 |a 306 s. : |b il., fot. + |e 1 CD-ROM
500 |a Text též v angličtině
500 |a "Katalog vydán k výstavě v Galerii Jaroslava Fragnera ···
65007 |a architektura a urbanismus |x au |2 sph
655 4 |a monografie
7001 |a Brychta, Roman |7 js20090128001 |4 aut
···
Proto se ani "ručně" nedá záznam v ALEPHu vyhledat při volbě "Heslo PSH", ale obecně pro "Předmět" ano - viz "Základní vyhledávání" pro "Katalog NTK". Při jednoduché změně parametru (aspektu) na &find_code=WKW v úvodním (předpřipraveném) zadání URL se počty záznamů již shodují.
Stejným způsobem použitý předmětový aspekt WKW i úplně analogické URL pro Národní knihovnu se také neshoduje s výsledky na stránce "Prohlížení hesláře", neboť zde nejsou uváděny žádné nalezené záznamy. (Musím připomenout, že tomu tak bylo i v případech, kdy se pro jiné termíny záznamy z Národní knihovny na této stránce úspěšně objevovaly.) Pro architekturu a urbanismus se totiž najde v databázi NKC jeden záznam, který nemá tento termín hesláře (sousloví) uveden v poli 650 (podle formátu MARC21 ), ale v poli 964 ("Předmětová hesla podle staré metodiky"):
···
24510 |a Urbanismus a architektura studiových center / |c Jan Novák
260 |a Praha : |b Čs. televize, |c 1972 |f (SČT 19)
300 |a 54, [2] s. : |b [56] s. obr. a fot. příl. ; |c 4°
500 |a Vyd. Studijní odbor Čs. televize ve spolupráci s Výzkum. ústavem ···
500 |a Přehl. lit.
500 |a Vysvětl. k obr.
500 |a Pro vnitř. potřebu
500 |a Obálka: Otto Řepa
7102 |a Československá televize |7 ko2001100007
964 |a Studia televizní - výstavba - architektura a urbanismus - výzkumy
964 |a Stavby studiové - koncepce - vývoj - výzkumy
964 |a Studia rozhlasová - výstavba - architektura a urbanismus - výzkumy
···
Protože záznamy v Národní knihovně přesně nespecifikují termíny Polytematického strukturovaného hesláře (podle podpole 2 pole 650 se převážně využívá CZENAS), je asi třeba akceptovat i záznamy, které mohou případně být diskutabilní z hlediska přesnosti vyhledání. Zmíněný záznam získaný při vyhledání údajů přes "Předmět(klíčová slova)" by se patrně měl objevit i mezi záznamy z "Katalogu Národní knihovny ČR" na zmiňované stránce NTK "Prohlížení hesláře".
Na závěr bych si dovolil uvést jednu technickou poznámku. Jak je typické pro správce počítačových systémů, již několik měsíců nejasně hovoří o tom, že zde zmiňované webové agenty nebudou časem moci využívat uživatelé mimo VŠE. Proto jsem "cvičně" agenty zprovoznil i na jiných místech a odkazy jsou pak zcela shodně uvedeny i na domácí stránce http://nb.vse.cz/~jjkastl/psh/.
Máme zde 1 komentář
Vyhledávání v katalogu
Vyhledávání v katalogu NTK podle hesel PSH je opravdu prováděno pomocí kódu "WKW" v poli "code", který nabízí nejlepší pokrytí a přesnost z možností vyhledávání v Alephu podle předmětových hesel PSH. Starší způsob používání kódu "PSH" v poli "find_code", který je používán například v Aleph OPACu, nedosahuje takového pokrytí v navrácených záznamech. Je pravda, že všechny typy vyhledávání pomocí hesel PSH přes indexy v Alephu NTK (jak přes Aleph OPAC, tak Aleph X Services) jsou problematické a nedosahují optimální přesnosti a pokrytí.
Vyhledávání v katalogu Národní knihovny probíhá pouze asi u 1/3 hesel PSH, k nimž byl nalezen jejich ekvivalent v předmětových heslech NK ČR. Před vyhledáváním je heslo PSH "přeloženo" na namapovaný ekvivalent ze souboru předmětových hesel NK ČR, které je potom použito stejně jako v případě vyhledávání z katalogu NTK (pole "code" je obsazeno kódem "WKW").
Záznam obsahující v 650 $2 chybně "sph" byl opraven na "psh".