Robotická knihovna - brána k digitalizovaným dokumentům Národní knihovny ČR se brzy otevře
Magnetopásková robotická knihovna ADIC Scalar 1000, která byla pořízena v rámci realizace programového projektu výzkumu a vývoje "Digitalizace mikromédií" (1997-1999) a která tvoří jádro systému umožňujícího online zpřístupnění digitalizovaných dokumentů z fondu Národní knihovny ČR [5], bude po několika odkladech konečně uvedena do provozu. V této souvislosti jsme položili několik otázek PhDr. Jiřímu POLIŠENSKÉMU, řediteli Odboru správy a ochrany fondů NK ČR.
Kdy začne robotická knihovna fungovat v rutinním režimu?
V současné době je systém zprovozněn na úrovni HW a SW a právě probíhá instalace programové aplikace AiP*Safe. Systém jako celek by měl začít fungovat na začátku prosince t. r.
Co tomu dosud bránilo?
Zdržení zahájení provozu bylo způsobeno dvěma skutečnostmi. Především technickými problémy způsobenými špatnou funkcí několika řadičů Interfase. Po měsících pokusů o jejich zprovoznění nakonec výrobce uznal, že dodané řadiče nemají deklarované parametry a byly dodavatelem vyměněny za jiný typ. Druhým důvodem je skutečnost, že žádná firma v ČR ani v zahraničí nedodávala požadovaný systém kompletně a NK ČR po instalaci jednotlivých subsystémů zajišťovala jejich integraci.
Co se změní z uživatelského hlediska, jaký to bude pro ně mít praktický přínos?
Výhodou pro uživatele bude zpřístupňování dokumentů konvertovaných do digitální podoby prostřednictvím internetu. Tam, kde to Národní knihovně dovolí autorské právo, budou dokumenty zpřístupňovány bezplatně a nebude ani vyžadována registrace uživatele. Bohužel, absence mechanismů, které by umožnily naplnit literu zákona, bude větší bariérou zpřístupňování dokumentů prostřednictvím sítí, než jsme na začátku předpokládali. Možnost práce s dokumenty v elektronické podobě by však měla v blízké budoucnosti podstatně ovlivnit metody vědecké a odborné práce. Nástroje pro vyhledávání informací a obsahové analýzy textů se budou stále vyvíjet a zdokonalovat a současně také stále více používat. Díky již vynaloženým investicím bude možné zpřístupňovat další a další digitalizované dokumenty a celý systém postupně rozšiřovat.
V první fázi po zprovoznění asi nelze očekávat převratné změny. Mnoho uživatelů, včetně institucí, kterým je digitální knihovna určena, není připraveno jak přístrojově, tak příslušnými vědomostmi, aby jejich práce s digitálními dokumenty přinášela okamžité výsledky. To se ale velmi rychle mění. Máme již první významné ohlasy. Vědecké ústavy, knihovny, archivy, muzea a další instituce požadují o nás více informací a chtějí svoje činnosti koordinovat s námi. Např. uvažujeme o propojení vznikající analytické báze záznamů článků publikovaných ve starších periodických dokumentech v jednom z pražských ústavů s naší digitální knihovnou, aby uživatel v ústavu měl možnost nejen zjistit ze záznamu potřebné údaje, ale po "kliknutí" na příslušnou ikonku se propojil do NK ČR a mohl si vybraný článek ihned přečíst, stáhnout nebo vytisknout.
To je však jen jeden z příkladů. Chceme také nabídnout knihovnám a dalším institucím celý náš systém pro zpřístupňování dokumentů prostřednictvím internetu. Podmínkou bude respektování formátu DOBM pro metadata a obrazové soubory v běžných formátech, tzn. JPEG pro barvu a šedou škálu a TIFF pro jednobitové zobrazení. V případě realizace společných projektů, budeme schopni zajistit i řadu činností jako je konverze do některých formátů, vytvoření metadat, mikrofilmování a digitalizaci mikrofilmů, konverzi obrazového do textového formátu a archivaci a zálohování digitálních dokumentů. Ve střednědobé perspektivě předpokládáme, že se NK ČR bude stále více podílet na společných projektech zaměřených na výzkum a vzdělávání. Odborná pracoviště tak budou moci využívat drahé speciální zařízení a specifické know-how, aniž by ho museli pořizovat pro domo.
Systém konverze klasických dokumentů do digitálního formátu a jejich zpřístupnění nebude sloužit pouze uživatelům, ale podstatným přínosem by měl být také pro knihovny. Velká část knižních bohemikálních sbírek je téměř ve všech knihovnách silně poškozena. Jsou to hlavně novinové a časopisecké fondy, které je třeba urychleně reformátovat. Klasická mikrografická cesta je nákladná a časově náročná. Díky realizovanému projektu budou knihovny moci využívat dokumenty dostupné přes internet, nebo získat levnější digitální kopii dokumentu na ochranu vlastního exempláře. Nahrazování reformátovanou kopií tak bude mnohem operativnější. V současné době již spolupracuje 13 knihoven v rámci Národním programu ochranného reformátování Kramerius. Půjčování dalších exemplářů z ostatních knihoven nám např. pomáhá doplnit chybějící části novinových titulů před vlastním zpracováním a zajistit tak co nejúplnější dokument v reformátované podobě. Veřejným knihovnám různých typů bude věnován také dílčí program VISK 7, který je součástí širokého projektu Veřejné informační služby knihoven a v rámci kterého se budou moci knihovny a další instituce ucházet o financování projektu reformátování ohrožených bohemikálních dokumentů, zejména novinových sbírek. Další dílčí programy jsou zaměřeny na přímou digitalizaci vzácných rukopisných a tištěných děl a na budování digitální knihovny.
Jaké dokumenty zde budou uloženy (v jakém formátu dat a metadat)? Bude aplikován systém AiP*Safe?
Digitální knihovna bude po zprovoznění obsahovat digitalizované rukopisy (vzniklé v rámci projektu Memoriae Mundi Series Bohemica - pozn. red.) a bohemikální periodika. Jejich počet poroste přirozeně v závislosti na objem finančních prostředků, které se pro tuto činnost podaří získat. Z periodik to budou zejména starší tituly z první poloviny 19. století. Dokumenty budou zpřístupňovány v obrazových formátech JPEG pro šedou škálu a barvu a TIFF G 4 pro jednobitové zobrazení. Metadata budou ve formátu DOBM, založeném na standardu SGML. V současné době ale probíhá v NK ČR výzkum zaměřený na konverzi metadat do XML. Systém AiP*Safe bude v nové verzi umožňující volnější editaci struktury dokumentu. V další fázi předpokládáme zpřístupňování i dalších digitalizovaných dokumentů včetně zvukových, pokud to samozřejmě umožní právní normy a příp. mechanismy na odvod plateb ať už autorům, nebo ochranným svazům.
Jaký očekáváte zájem poté, co bude systém uveden do provozu (např. měřeno počtem požadavků za den)? Jak velký nápor jste schopni zvládnout?
Jaký nápor nás čeká, nevíme. Bude pravděpodobně postupně narůstat spolu s tím, jak budou přibývat tituly dostupné prostřednictvím internetu. Odborníci z počítačových firem nás varují, že zvláště pokud budou tyto dokumenty zpřístupněny bez omezení včetně zahraničí, může být nápor velmi kritický. Také definovat limity systému je obtížné. Má zabudovanou jistou flexibilitu a počítáme s operativním rozšiřováním. Prvním omezením je počet mechanik v robotické jednotce, a to je šest. To znamená, že v současné době jsme schopni realizovat v jediném okamžiku minimálně šest požadavků. Další soubory ovšem mohou být zpřístupňovány z poměrně rozsáhlé paměťové cache, tedy přímo z diskového pole. Omezení představuje také rychlost robotické jednotky, rychlost čtení a přenosu dat atd. Tyto rychlosti by již neměly být tím nejužším místem. Tím bude pravděpodobně propustnost sítě. Pokud bychom mohli srovnávat zatížení digitální knihovny např. s počtem požadavků na KATIF (obrázkový katalog NK), čeká nás max. 2000 požadavků za den a to jsme schopni zvládnout. Lze však předpokládat, že k rozšíření systému budeme muset přikročit brzy, ať už rozšířením počtu mechanik, nebo diskového prostoru.
Jaká je aktuální kapacita robota, která může být využita, a do jaké míry může být expandovatelná?
Stávající kapacita páskové robotické knihovny je 2 TB. Je však třeba zmínit, že knihovna slouží nejen pro ukládání a zpřístupňování obrazových souborů, ale s její pomocí řešíme i archivaci či zálohování. Takže každý soubor je v knihovně obsažen ve dvou identických kopiích a třetí je uložen off line. To samozřejmě snižuje momentální využitelnou kapacitu. Celková kapacita při použití pásek s objemem 36 GB je více než 8 TB. Expanze je možná jednak výměnou pásek s větší kapacitou, při použití nejnovějších pásek 100 GB je kapacita více než 23 TB, ale také je možné knihovnu expandovat připojením dalších tří skříní s prostorem pro pásky a mechaniky. Celý komplex by obsluhovala jediná robotická jednotka. Kapacita by pak dosáhla velikosti až 100 TB. Pro názornější představu: pokud by se podařilo digitalizovat v obrazovém formátu např. povinný výtisk od r. 1900, byla by to dostatečná kapacita pro jeho zpřístupnění. Jak je vidět, technické možnosti v tomto směru podstatně překračují vývoj na poli reformátování. Kapacita, kterou máme nyní k dispozici, by měla stačit do konce r. 2001, pak by se měly dokoupit další pásky, mechaniky a bude třeba rozšířit licenci programu SAM FS, který chod knihovny řídí.
Chystáte nabízet kopie také ve formátu DjVu vedle TIFF (obrazy v bitonálním módu)?
V současné době se kloníme spíše k digitalizaci ve 256 úrovních šedé škály. To bude asi také základní formát pro zpřístupnění, především na lokální síti NK ČR a prostřednictvím CD-R médií. Právě dokončujeme digitalizaci série vzácných periodických dokumentů Slovanské knihovny, u kterých nebylo možné jiné řešení, a kde jsme si ověřily výhody a nevýhody tohoto zobrazení. Použitím šedé škály a vysoké rozlišovací schopnosti však vznikají rozsáhlé soubory, které nejsou vhodné pro internet. Proto se hledá řešení jednak použitím formátu DjVu, s vyšší kompresí při zachování šedé škály, a nebo převod do jednobitového zobrazení. Současně uvažujeme jak kompresi provádět, zda dynamicky v okamžiku požadavku uživatele (za chodu) nebo předem s tím, že by obrázek v jiném formátu byl uložen spolu se základním obrazovým souborem. Obě řešení mají výhody i nevýhody. První může znamenat podstatné zpomalení systému pro zpřístupňování, druhé zvyšuje nároky na ukládací prostor. Obě řešení je třeba zkoušet v podmínkách běžného provozu a pak vyhodnotit. Na to si ale budeme muset ještě pár týdnů počkat.