Memoriae Mundi Series Bohemica: Program digitálního zpřístupnění vzácných fondů
Historie programu
V roce 1992 podepsala Národní knihovna smlouvu s UNESCO o přípravě pilotního CD-ROM programu Paměť světa [8]. Tento CD-ROM vyšel na jaře 1993, byl prezentován v UNESCO a stal se vlastním prvním CD vzniklým v tomto programu. Paměť světa však není jen o digitalizaci, neboť digitalizace je pouze jen jednou z technologií, jak zpřístupnit vzácné dokumenty a některé z nich i ochránit nebo zachránit. Paměť světa si klade za cíl záchranu světového kulturního dědictví obsaženého v dokumentech i ústních tradicích.
Po výše uvedeném mezinárodním úspěchu následovalo období testování různých způsobů snímání digitálního obrazu. Tento proces lze charakterizovat jako hledání cesty od drahé digitalizace prostřednictvím velice kvalitních profesionálních diapozitivů 6x9cm k digitalizaci přímé pomocí kamery.
V r. 1995 vydali oba partneři - opět jako první v programu Paměť světa - dva úplné rukopisy z fondů Národní knihovny ČR s bohatým vědeckým popisem. Zároveň došlo k rozhodnutí vybudovat digitalizační pracoviště v Národní knihovně a tím i přistoupit k digitalizaci rutinním způsobem.
To však s sebou neslo zásadní problém zpřístupnění a ochrany digitálních dat. Bylo zřejmé, že je třeba se co nejvíce oprostit od konkrétních softwarových a hardwarových platforem. Tato otázka se z našeho popudu stává předmětem jednání Subkomise pro technologii UNESCO, jejíž práce se účastníme především v oblasti strukturace digitálních dokumentů a harmonizace přístupu k nim. Navíc je od r. 1997 Adolf Knoll též členem Mezinárodní poradní komise programu UNESCO Paměť světa.
V r. 1996 proběhlo zasedání Subkomise pro technologii v Praze za účasti odborníků z programů Telematiky pro knihovny EU (EU finančně toto zasedání podpořila), o rok později jsme uspořádali na žádost UNESCO školení o digitalizaci rukopisů v Národní knihovně pro odborníky z několika evropských zemí. Na léta 1997-98 se náš program dále rozvíjí díky grantu pro výzkum a vývoj. Kromě UNESCO, pro které jsme v této oblasti jedním z hlavních partnerů, jsme zahájili spolupráci s programem G7 Bibliotheca Universalis a rozvinuli řadu dalších kontaktů v celém světě vč. National Digital Federation v USA. Ne bez zajímavosti je například fakt, že velkou část našeho know-how využívá Univerzitní knihovna v Grazu (Rakousko).
Podstata našeho řešení
Od r. 1996 bylo věnováno velké úsilí strukturaci a ochraně digitálních dat. Konečné řešení bylo zpracováno na platformě SGML, na níž bylo definováno vlastní prostředí DOBM [9], které je de facto extenzí HTML.
HTML totiž není schopno popsat datové objekty z hlediska jejich obsahu, jde totiž o formální formátovací jazyk, který předepisuje, jak má dokument vypadat při zobrazení. Jak skutečně vypadá, závisí pak i na vlastnostech konkrétního prohlížeče. Po zvážení existujících přístupů, zejména TEI, jsme se rozhodli pro vlastní řešení, které kombinuje výhody HTML (snadná základní dostupnost dat bez jakýchkoli konverzí) a obsahově orientovaného objektového přístupu. Tím jsme schopni zabezpečit základní otevřenost dokumentu a jeho přístupnost prostřednictvím webovského prohlížeče spolu s možným využitím popisných metadat speciálními nástroji.
Tímto vzniká velmi přehledný metadatový kontejner na bázi SGML, který zaručuje dlouhodobé zprostředkování digitálních dat, v případě starých rukopisů tedy grafických souborů. Obecný jazyk DOBM lze pak specifikovat pro jakýkoli další typ dokumentu; v současné době vzniká specifikace pro noviny (u nás je rozvíjen též program digitalizace mikrofilmů starých novin), zvukové nahrávky a další. Struktura DOBM je stromová a velmi složitá, vlastní metadatový (popisný) kontejner zpravidla obsahuje stovky souborů. Všechny soubory odkazují na základní předpis DOBM DTD a na specifikaci pro konkrétní typ dokumentu. Součástí množiny souborů kontejneru je SGML soubor ENTER.SGM (dle předdefinovaného DTD), který mapuje konkrétní specifikaci pro ten který typ dokumentu.
Součástí metadatového opěrného skeletu je rovněž soubor DESCR.HTM, který obsahuje stručný bibliografický popis dokumentu minimálně na alespoň základní úrovni AACR2. Z tohoto souboru se generují data pro databázi digitálního archivu a pro informační systém na Internetu. Speciální software pro prohlížení digitálních kopií pak využívá základních definic datových objektů a jejich specifikace v ENTER.SGM, aby objektově vybudoval virtuální knihu. Kromě povinných popisných objektů, daných katalogizačními pravidly, našimi potřebami a strukturou dokumentu, může ten, kdo vytváří popis digitální kopie, přidat jakékoli další popisné objekty dle jakýchkoli dalších standardů, zavedených praktik nebo dle své libosti. DOBM totiž obsahuje pravidla, jak objekt definovat vč. určení jeho jména, jeho významu a vlastností. Speciální software je pak schopen rozpoznat, že popis obsahuje další objekty, a přidat je do souboru sledovaných objektů a naindexovat k nim všechny jejich konkrétní realizace ze všech souborů DOBM, tvořících metadatový kontejner digitální kopie. DOBM počítá i s popisem datových objektů, tj. celých vnějších souborů, odkazovaných z DOBM. Tak je možno i specifikovat kvalitativní hladiny grafického souboru (náhled, nízká, vysoká, archivní atp. kvalita) popřípadě dalších vlastností vnějších odkazovaných souborů, například kódování, pokud je souborem text atp.
Vnější datové soubory, které jsou bezprostředním výsledkem digitální konverze vizuálních informací, jsou pak ukládány do formátů, doporučených pro internetovskou komunikaci (především JPEG - pro náhledy pak GIF), neboť lze očekávat, že tyto velmi používané formáty jsou zárukou delší životnosti dat. Finální dokument je pak komplexem popisných textových souborů SGML DOBM a několika řad souborů obrazových.
Z každého pořízeného obrazu je po jeho základním zpracování odvozen archivní soubor v maximální účelné kvalitě (JPEG), dále vysoce kvalitní soubor pro lokální přístup (JPEG), internetovský soubor nízké kvality (cca. 150 KB JPEG) a dvě vrstvy náhledových souborů GIF (cca. 50 a 10 KB).
Lze si povšimnout, že je aplikována komprese dat, a to i pro archiv. Soubory jsou totiž tak vysoké kvality, že úbytek informací ve vyšších kvalitativních hladinách se odehrává za hranicí možností vnímání lidského oka, tedy tam, kde nemohl vědomě tvořit ani autor předloh.
Archivace digitálních dat
Základním předpokladem archivace digitálních dat je přehledná datová struktura a užití co nejrozšířenějších datových formátů. To je zajištěno výše uvedeným přístupem. Přesto je však možné předpokládat vynucené změny základních východisek našeho přístupu, a proto je nutné zřídit digitální archiv, který by byl schopen monitorovat vývoj v této oblasti a zabezpečit potřebnou migraci dat (konverzi z formátu do formátu) nebo přímo migraci celého datového kontejneru. Kromě toho musí digitální archiv sledovat kvalitu uložených paměťových médií, v našem případě dnes CD-ROM. Základní pracoviště digitálního archivu v Národní knihovně vzniklo, v současné době se zabývá měřením kvality CD-ROM nosičů, výhledově do sebe zahrne i audio CD, které Národní knihovna získává povinným výtiskem a za jejichž trvalé uchování (nebo spíše za obsažené informace) tudíž nese garanci. Součástí archivu je jeho informační systém, jehož část je přístupná po Internetu jako databáze digitalizovaných dokumentů.
V archivu jsou z vlastní produkce ukládány 2 CD v archivní kvalitě a 1 CD v kvalitě uživatelské. Archiv bude mít za úkol i distribuci (prodej) digitálních kopií.
Sdílení digitálních kopií
Základním distribučním médiem je prozatím CD-ROM, neboť umožňuje práci s vysoce kvalitními obrazovými daty a speciálním software (ManuFreT). ManuFreT sám vytváří velice přívětivé uživatelské prostředí, které pro obrazová data spojuje vlastnosti prohlížeče a editoru a pro metadata nabízí speciální zpracování (indexace a vyhledávání). Umožňuje též zápis vlastních poznámek ke každé straně rukopisu zvlášť.
ManuFreT se nainstaluje na PC pouze jednou, přičemž tato instalace přečte vždy každý nový disk, nabídne jeho zpracování do virtuální knihy a uloží zpracovaná metadata (případně s našimi dalšími poznámkami) na pevný disk. Tímto způsobem při respektování SGML DOBM je i sám ManuFreT univerzálním nástrojem, přičemž stále platí, že uživatel může samozřejmě vždy používat i webovský prohlížeč. Ten však mu však neumožní zhodnocení popisných metadat, omezí jej v manipulaci s grafickými soubory a omezí jej i možností zobrazovat jednotlivé sady znaků.
Pokusně je v návaznosti na internetovskou informační databázi o digitalizovaných dokumentech zpřístupňováno asi 13 rukopisů v úplnosti.Lze se k nim dostat z bibliografického záznamu z databáze. Grafiské soubory jsou v tomto případě omezeny na nízkou kvalitativní hladinu (cca. 150 KB JPEG). Prozatím váháme, zda v případě tak specifických dokumentů, jako jsou staré rukopisy, má smysl jejich zpřístupnění po Internetu, neboť k jednotlivým titulům se váží velmi omezené a velmi speciální okruhy uživatelů. Nicméně jsme udělali vše pro to, abychom tuto možnost otevřeli. Záleží spíše na ohlasu odborníků, abychom případně začali shánět větší diskové kapacity.
Souběžně vzniká databáze, v níž budou rukopisy analyticky rozepisovány, tedy databáze, která se víc než vnějšími popisnými znaky fyzických objektů bude zabývat jejich obsahem. To může napomoci zpětně integrovat různé historické prameny. Také tato databáze bude v brzké době zpřístupněna na Internetu a ve vazbě na informaci o tom, které digitální kopie jsou k dispozici, může znamenat posun ve vědeckém bádání. O to více, že zde jednáme o zapojení do připravovaného evropského programu, která si klade za cíl vybudovat celoevropský informační systém o rukopisech včetně dostupnosti jejich kopií, ať klasických či digitálních.
Náš přístup umožňuje totiž nejen analýzu a popis, ale poskytuje též velmi silný nástroj pro zpracování edic rukopisů v novém prostředí, což je z badatelského hlediska velice žádaná vlastnost.
Rozšíření programu
Prozatím byly kromě jednotlivých titulů digitalizovány především rukopisy Národní knihovny, v tomto roce však díky podpoře Ministerstva kultury ČR budou v programu Memoriae Mundi Series Bohemica digitalizovány i rukopisy dalších institucí (jde o grant v programu MK ČR Rozvoj informační sítě knihoven).
Kromě toho, že vytváříme digitální kopie vzácných analogových zvukových nahrávek z fondu hudebního oddělení Národní knihovny (uživatelské kopie), věnujeme se i speciálním programům. Jedním z nich je práce na katalogizaci orientálních rukopisů z fondu Národní knihovny. Díky podpoře Československé obchodní banky vyjde koncem r. 1998 na CD-ROM katalog arabských rukopisů s obrazovými ukázkami. Ukazuje se, že tento počin přehodnotí naše vidění tzv. pokladů Národní knihovny. V této práci chceme pokračovat a příští rok se věnovat perským rukopisům. Tento počin má velký ohlas nejen v arabském světě, ale i v UNESCO, neboť je příspěvkem k reintegraci národních kultur. Začali jsme též na přípravách digitální edice dosud nikdy nevydané památky českého surrealismu, pozůstalosti skupiny umělců kolem Vratislava Effenbergera - k tomuto počinu háníme sponsora, zatím co základní pořízení dat jsme schopni zabezpečit ze stávajících zdrojů.
O našem programu informujeme na našich webovských stránkách, ale také na různých mezinárodních konferencích. Z našeho podnětu vznikl například v rámci ELAG (European Library Automation Group) pravidelný pracovní seminář o digitalizaci, který vede Adolf Knoll. Naše články lze najít v různých sbornících z konferencí, ale v poslední době též ve vlivných zahraničních časopisech (Stanislav Psohlavec nedávno publikoval v USA a Adolf Knoll ve Velké Británii v časopise VINE).
Ukazuje se, že zde postupně vznikl technologicky náročný špičkový program, který nám přináší zájem o spolupráci z velmi rozvinutých zemí. Díky nadšení a obětavosti několika jedinců z firmy Albertina icome Praha a Národní knihovny ČR vzniklo totiž něco, co by se dalo nazvat pražskou školou digitálního zpracování vzácných dokumentů, neboť náš program zahrnuje všechny aspekty tohoto problému, badatelský přístup odborníků na staré rukopisy a jejich zhodnocení v novém prostředí nevyjímaje.
Díky grantu z oblasti výzkumu a vývoje na roky 1997-1998 bylo digitalizační pracoviště v Národní knihovně ČR velice technologicky posíleno. Jeho kapacita a naše know-how by měly produkovat data. Bojím se jen, že bude velmi obtížné po odeznění grantu najít od r. 1999 takové prostředky na provoz, aby se vše maximálně zhodnotilo. V sázce je nejen zastarávání techniky, ale také naše odborná prestiž.
Mně osobně přinesl tento projekt během let nové přátele. Myslím, že odtud také pramení jeho největší a - nejen pro zahraniční partnery - někdy obtížně pochopitelná síla.
Projekt vyvrcholí koncem letošního roku ještě jednou publikací: upraveným druhým vydáním CD-ROM, který bude obsahovat celé definované prostředí DOBM SGML a jeho aplikaci přinejmenším na rukopisy a staré tisky, bohaté ukázky a podpůrný software nejen pro zápis metadat a jejich strukturaci, ale také pro přístup k digitálním kopiím (ManuFreT). Aktuální informace přináší vždy URL http://digit.nkp.cz [6]. Tam lze také najít odpovědi na případné další otázky, které se určitě vynoří, neboť tento článek je pouze základním uvedením do našeho projektu.