Katalogizace elektronických zdrojů na Internetu: proč, co, jak?
Nanejvýš aktuálním problémem se pro naše knihovny zpřístupňující elektronické zdroje publikované v síti Internet stává otázka katalogizace těchto zdrojů. K této problematice byl publikován v časopise Cataloging & Classification Quarterly č. 3/2000 článek Cataloging Internet Resources: Why, What, How (Vinh-The Lam), který sloužil jako základ pro následující příspěvek. Zmíněný článek se zabývá desetiletým úsilím knihovníků v USA o vytvoření účinného způsobu katalogizace internetových zdrojů.
Úvodem
Internet vznikl již téměř před 30 lety, ale veřejnou sítí se stal počátkem devadesátých let, kdy se osobní počítače vzhledem k podstatnému snížení cen staly obecně dostupnými. Internet přinesl nebývalou záplavu informací určených k veřejnému použití. Knihovny musely hledat způsob, jak se s touto skutečností vyrovnat a integrovat dokumenty na Internetu do svých knihovních fondů jako poklad lidského vědění.
Zejména katalogizátorům, jejichž hlavním úkolem je organizovat informace tak, aby bylo možno je vyhledávat a využívat, přinesl Internet značné problémy. První problém pocházel z nejvýznamnější vlastnosti Internetu: závratné rychlosti nárůstu publikovaných informací. Druhý problém se týkal vlastností dokumentů na Internetu (špatná organizace, různá kvalita a stabilita, které znamenají obrovské potenciální pracovní zatížení, pokud by se měl knihovní katalog udržovat).
Proč?
Bylo jednoznačné, že Internet potřebuje organizaci. Současné nástroje sloužící vyhledávání na Internetu mají velmi omezené možnosti. Katalogizace je činnost knihoven, zaměřená na dosažení určitého pořádku umožňujícího účinné vyhledávání a využívání informací. První diskuse týkající se Internetu, které vedly knihovníci a další informační profesionálové, byly tudíž zaměřeny na schůdnost katalogizace internetových zdrojů. Některé knihovny zastávaly názor, že dokumenty publikované na Internetu jsou natolik nestabilní, že je nelze efektivně katalogizovat. Jiné knihovny uvažovaly, zda by mohly stále mocnější nástroje pro vyhledávání a prohlížení, automatizované indexační nástroje a "inteligentní manažery" odstranit potřebu katalogů. Prozatím došli knihovníci k závěru, že navzdory mnoha problémům by se měly zdroje publikované na Internetu katalogizovat stejně jako ostatní druhy tradičních zdrojů; věří, že rešerše provedené v internetových zdrojích s využitím katalogů budou mnohem přesnější. Dalším bodem diskuse byla otázka, zda by se stávající katalogizační nástroje, jako formát USMARC (nyní MARC21) a katalogizační pravidla AACR2R, měly používat i pro katalogizaci internetových zdrojů. Těmito problémy se zabýval výzkumný projekt OCLC v letech 1991 - 1992. Hlavní závěry tohoto projektu byly takové, že formát USMARC pro (tehdy) počítačové soubory a AACR2R - kapitola 9 se budou používat i pro katalogizaci internetových zdrojů; pro elektronické umístění a přístup ke zdrojům bylo vytvořeno v bibliografickém formátu USMARC nové pole 856.
Co?
Internetové zdroje byly vytvářeny v různých formátech, přístupné v různých režimech (WWW, gopher, FTP) a s různým obsahem (přehledy, statistické údaje, bibliografické údaje ad.). Mohlo se jednat o knihovní katalogy nebo databáze, elektronické časopisy, diskusní skupiny aj. Někteří autoři se je snažili uspořádat do širokých kategorií jako diskrétní soubory, databáze a servery. Otázkou je, co by se mělo katalogizovat?
Všeobecně převládá názor, že nelze katalogizovat všechny dokumenty přístupné na Internetu, nýbrž je třeba stanovit určitá kritéria výběru, která by se v zásadě měla shodovat s kritérii stanovenými pro tradiční druhy dokumentů. Do výběru by měly být zahrnuty dokumenty relativně stabilní, některé knihovny zahrnují pouze volně přístupné zdroje. Pokud jde o druhy dokumentů, zahrnují se do výběru především online časopisy a knihy, mapy, grafické dokumenty a multimédia obsahující některé z těchto druhů dokumentů. Pokud jde o webové stránky, vybírají se pro účely katalogizace pouze stránky korporací, zahrnující především užitečné statistické či oficiální informace (mnohé instituce státní správy publikují své informace již pouze elektronicky).
Jak?
V polovině let devadesátých se již nekladla otázka zda internetové zdroje katalogizovat, nýbrž jak je katalogizovat. Odpověď přišla částečně opět z řešení dalšího projektu OCLC zaměřeného na Internet, který dostal název Building a Catalog of Internet Resources. Tohoto projektu se zúčastnilo 231 katalogizátorů reprezentujících téměř všechny typy knihoven, kteří zpracovali asi 4700 internetových zdrojů. Výsledkem projektu byl InterCat Catalog - online katalog, který se stále rozrůstá a v polovině roku 1999 měl již více než 100 tisíc záznamů. Jako pomůcka pro spolupracující katalogizátory slouží příručka Nancy B. Olson Cataloging Internet Resources: A Manual and Practical Guide. Báze InterCat se stala součástí souborného katalogu OCLC WorldCat.
Nestabilní internetové zdroje přístupné online se liší od fyzických elektronických dokumentů (CD-ROM, diskety aj.) ve dvou oblastech: v popisu jejich měnících se vlastností a v poskytnutí informace o přístupu k nim.
V první oblasti je základním problémem nedostatek nebo absence informací nutných pro popis. Katalogizátor nemůže najít údaje potřebné pro katalogizaci v doprovodném tištěném materiálu nebo na obalu (jako u hmotných elektronických dokumentů). Hlavním pramenem popisu internetových zdrojů je titulní nebo podobná obrazovka, jejíž zobrazení často vyžaduje dekompresi nebo jiné zpracování. Ale i titulní obrazovka se může časem měnit. Údaje o vydání a nakladatelské údaje nejsou často uvedeny. Údaje o typu dokumentu jsou zatím v pravidlech AACR2R i v instrukcích OCLC značně omezeny. Z těchto důvodů se pro popis internetových zdrojů používá více poznámek: k prameni hlavního názvu, variantním názvům, historii souboru, vydání/distribuci, charakteristikám zdroje, vydání v jiné formě.
V druhé oblasti je třeba (z důvodu nehmotnosti zdroje) uvést poznámky pro požadavky na systém a způsob přístupu. Nejdůležitějším údajem je alespoň jeden údaj o lokaci a přístupu (URL). Adresy URL se mohou snadno a často měnit, což činí pro údržbu katalogu značný problém. Tento problém řeší OCLC systémem trvalých URL (Persistent URL - PURL). Systém PURL ovšem funguje pouze pro registrované uživatele.
Pro bibliografický popis elektronických zdrojů byla v srpnu 1997 vydána revidovaná norma ISBD(ER), jejíž funkčnost byla ověřena v rámci FRBR (Functional Requirements for Bibliographic Records - text: http://www.ifla.org/VII/s13/frbr/frbr.htm, hodnocení: http://www.ifla.org/IV/ifla64/065-74e.htm). V současné době se připravuje revize AACR2, jejímž cílem je harmonizovat AACR2 s revidovanou normou ISBD(ER).
Katalogizace netradičně
Ačkoliv se katalogizace internetových zdrojů stala již v mnoha knihovnách realitou, problém bibliografické kontroly internetových zdrojů není zdaleka vyřešen. Úsilí profesionálních knihovníků se dosud zaměřovalo pouze na výstup toku informací v síti. Je však třeba věnovat se také opačnému konci toku informací. K tomuto účelu byly vytvořeny systémy a schémata metadat, které by měly sloužit tvůrcům internetových zdrojů jako nástroje ke standardnímu popisu svých produktů. Prvky těchto standardů napomáhají vyhledávání internetových zdrojů. Mezi metadatovými systémy získal největší pozornost katalogizátorů standard Dublin Core (DC) (český překlad dostupný na http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html; podrobné informace k DC viz příspěvek P. Žabičky). Připravují se různé nástroje pro převod dat Dublin Core/MARC (Library of Congress: Dublin Core/MARC/GILS crosswalk), které využívají prvky DC v katalogizaci. Nejdále v Evropě zatím dospěl projekt Nordic Metadata ve vytvoření konvertoru dat, který je schopen vytvářet záznamy ve formátech MARC severských zemí a USMARC ze zdrojových údajů DC.
Od července loňského roku je v provozu nová služba OCLC - Cooperative Resource Catalog (CORC). Jde o nástroj pro automatickou katalogizaci elektronických zdrojů přímo na webu (vyhledávání, vytváření a editace záznamů), a to ve formátech MARC a DC, využívaný na mezinárodní úrovni. Na jeho testování se podílelo více než 450 knihoven z celého světa. Databáze vznikla ze záznamů původně uložených v bázích OCLC InterCat a NetFirst.
CORC současně poskytuje další služby, např. údržbu adres URL obsažených v bibliografických záznamech, využívání různých autoritních souborů integrovaných v systému, vytváření "pathfinders" (tématické bibliografie). CORC komunikuje s databází WorldCat, tzn. že využívá její záznamy a naopak do ní dodává záznamy nové. Nové záznamy v DC se v katalogu CORC vytvářejí přímo ze zdrojových metadat a před exportem do báze WorldCat jsou automaticky konvertovány do formátu OCLC-MARC.
Standard Dublin Core slouží "nekatalogizátorům", tj. hlavně tvůrcům webových dokumentů pro standardní popis těchto elektronických zdrojů. Záznamy v Dublin Core nejsou vytvářeny podle jednotných knihovnických pravidel, tj. nepoužívají AACR2, ISBD či formáty MARC. Všechny záznamy DC obsahují minimální údaje, tj. fixní pole, název a URL; obvykle mají i abstrakt a předmětová hesla. Většina záznamů obsahuje více než toto minimum údajů. OCLC připravuje návrh vstupních standardů pro záznamy DC.
Všechny záznamy v Dublin Core vytvořené v systému CORC se ukládají do bází CORC Resource Catalog a WorldCat jako záznamy na 3. úrovni MARC. Nekonvertují se všechny údaje. Fixní pole, kódované údaje a všechny ostatní údaje MARC generuje software na základě obsahu záznamu DC. Údaje MARC nejsou obvykle tak podrobné jako při vytváření záznamu katalogizátorem. Knihovny mohou provádět údržbu, import a export záznamů v MARC (zatím MARC21, připravuje se i UNIMARC), Dublin Core v HTML a také Dublin Core v RDF/XML.
Závěr
Knihovny se budou muset i u nás vyrovnat se začleněním internetových zdrojů jako cenných informačních dokumentů do svých online katalogů a digitálních knihoven. V Národní knihovně ČR se řeší pilotní projekt týkající se dané problematiky, ovšem pokud má být tato oblast katalogizace (a s tím související otázky získávání, archivace a zpřístupňování elektronických zdrojů) směrována k reálnému provozu, je třeba počítat - stejně jako v zemích, kde již je tato činnost realitou - s obrovským množstvím pracovních kapacit knihovníků i odborníků z oblasti informačních technologií.