Dlouhodobá archivace digitálních dokumentů
1. Digitální dokument
Digitální dokumenty (označované někdy v souladu s terminologií prosazovanou v mezinárodní standardizaci v oblasti bibliografického popisu také jako "elektronické zdroje" [1]) začínají být od druhé poloviny 90. let považovány (jak z teoretického, tak z praktického hlediska, kterým se budeme zde především zabývat) za legitimní součást publikační produkce v národním i globálním měřítku. Tato situace pochopitelně znamená zásadní změnu ve fungování informačních institucí, jejíž důsledky se zatím neprojevily v plném rozsahu. V širším kontextu bychom ji měli zařadit do druhé etapy procesu implementace informačních a komunikačních technologií do informačních služeb (v první fázi usnadňovaly správu a využívání knihovních fondů a umožňovaly vzdálený či lokální přístup k informačním systémům). Pro ni je charakteristické, že se uplatňují jednak při konverzi analogových dokumentů do jejich elektronické reprezentace (viz srovnání vlastností analogového a digitálního záznamu), která je nabízena jako jejich náhrada na základě individuální objednávky nebo zpřístupněna plošně prostřednictvím počítačové sítě, jednak při vytváření digitálních dokumentů ve hmotné či nehmotné podobě jako výstupů elektronického publikování, které nemají analogovou předlohu (v této souvislosti se objevuje koncept digitální nebo hybridní knihovny). Digitalizace (v technologickém i sociálně-kulturním pojetí) představuje zřejmě nejdůležitější milník v dějinách lidské civilizace od vynálezu knihtisku.
Rostoucí zájem knihoven o digitální dokumenty je přirozenou reakcí na skutečnost, že World Wide Web nabývá na významu nejen jako prostředí, které nabízí možnost poměrně snadno uskutečňovat soukromé publikační aktivity, ale rovněž jako prostředí, které lze efektivně využívat pro oficiální komunikaci (ve vědecké, akademické a podnikové sféře a ve veřejné správě), která měla dosud z různých důvodů v dominantní míře psanou nebo tištěnou formu (tj. formu fyzicky existujících dokumentů složených z hmotného nosiče informací a "množinou dat nebo informací, které jsou na něm (nebo v něm) fixované a formálně a obsahově uspořádané" [2]). Tomuto tématu je oprávněně věnována značná pozornost a z diskusí, které probíhají na různých úrovních, vyplývá, že knihovny (zejména ty, které mají depozitní funkci) se zaměřují právě na druhou skupinu digitálních online distribuovaných dokumentů, které jsou zpravidla vybírány na základě souboru kritérií odpovídajících profilu fondu dané zpracovatelské instituce. Není smyslem tohoto příspěvku, který vychází z diplomové práce Role digitalizace v systému ochrany historických fondů se zvláštním zřetelem na projekt Memoriae Mundi Series Bohemica realizovaný v rámci programu UNESCO Memory of the World, kterou jsem obhájil v říjnu 2000 na ÚISK FF UK, odpovědět na provokativní otázku, zda tradiční dokumenty ztratí své opodstatnění a budou zcela nahrazeny digitálními nebo digitalizovanými protějšky, nýbrž poukázat na některé atributy digitálních dokumentů a z toho odvozené metody archivace za účelem jejich dlouhodobého zpřístupnění, tj. problému, kterému musí čelit každá instituce, která se rozhodne zařazovat digitální dokumenty do svého fondu.
Obecné vlastnosti digitálního dokumentu jsou odvozeny z podstaty digitálního záznamu. Analogový záznam je založen na signálu se spojitě proměnlivým průběhem (např. elektromagnetický záznam zvuku na magnetofonovém pásku [3]), přičemž k jeho fixaci je třeba aplikovat specifický typ nosiče podle druhu informací a příslušné dekódovací mechanické, optické, elektrické nebo elektronické zařízení (v tomto smyslu jde tedy o strojem čitelný záznam, resp. dokument). Toto vymezení z fyzikálního hlediska se však v praxi pokládá za příliš rigidní, a proto se k analogovému záznamu řadí také text, který je zapsaný nebo vytištěný na papíře či jiném materiálu a který je tak vnímatelný zrakem.
Digitální záznam je oproti tomu reprezentován posloupností znaků binární soustavy ("0" a "1"), tj. kódu, se kterým umí pracovat pouze počítač, a teprve pomocí výstupních zařízení (monitor a tiskárna) lze převést digitální záznam do analogové, člověku srozumitelné podoby. K hlavním rysům tohoto kódu patří univerzálnost (slouží k vyjádření textových, obrazových, zvukových a audiovizuálních informací, resp. dat) a maximální redukce znakové sady. Digitální záznam je principiálně nezávislý na konkrétním nosiči, který tak přestává plnit svou původní roli prostředku k časoprostorovému transferu informací, a informace takto zachycené jako by z pohledu uživatele ztratily "hmotnou" podobu.[4]
Z těchto faktů vyplývají následující typické odlišnosti digitálního a analogového dokumentu: [5]
Digitální dokument | Analogový dokument |
dekódování počítačem nebo jím řízenými perifériemi | dekódování strojem nebo lidskými smysly |
proměnlivost | stálost |
hypertextová / hypermediální struktura | lineární struktura |
multimedialita | unimedialita |
stavebnicový charakter | celistvost a sekvenčnost |
neztrátová reprodukce | ztrátová reprodukce |
snadná formální transformace | obtížná formální transformace |
distribuovanost (možnost on-line přístupu) | lokalizovanost |
snadná kontrola integrity záznamu | obtížná kontrola integrity dat |
interaktivnost | jednostranné působení |
Digitální dokumenty můžeme rozdělit podle tří kvalitativních hledisek do těchto kategorií:
A. Podle původu
- dokumenty primárně digitální (např. multimediální aplikace, některé elektronické časopisy)
- dokumenty existující paralelně v tradiční a digitální formě (většina odborných časopisů)
- dokumenty převedené z tradiční do digitální formy (fotografie vystavené na Internetu, pokud nebyly pořízeny digitálním fotoaparátem)
B. Podle stupně proměnlivosti [6]
- statické dokumenty (fixní forma a obsah - dokumenty ve formátu PDF)
- dynamické dokumenty (fixní forma a proměnlivý obsah - zpravodajské servery)
C. Podle vztahu k digitální (hybridní) knihovně [7]
- externí on-line dokumenty (webové stránky)
- externí off-line dokumenty (audionahrávky na CD-DA)
- dokumenty, které vznikly při realizaci projektu digitalizace (digitální kopie středověkých rukopisů)
2. Paradigma archivace digitálních dokumentů
Důsledkem výše uvedeného rozdílu mezi analogovým a digitálním záznamem je, že na digitální dokumenty nelze aplikovat stejný koncept ochrany jako v případě analogových dokumentů. Tento koncept P. Conway ve zkratce, ale celkem výstižně označuje jako "odpovědné správcovství" (responsible custody) [8], protože se primárně soustřeďuje na uchování jejich nosiče (jakožto faktoru ovlivňujícího informační hodnotu zaznamenaných informací) v takovém fyzickém stavu, který umožňuje zpřístupnění jejich intelektuálního obsahu (důraz se klade na preventivní opatření, která mají omezit působení degradačních činitelů - vhodné klimatické podmínky úložného prostoru a pravidla využívání dokumentů), a event. provedení jejich formální transformace (např. mikrofilmování novin).
Činnost digitálního archivu sice sleduje týž strategický cíl (zpřístupnění spravovaných dokumentů), avšak jejím předmětem se namísto ochrany dokumentu jako homogenní jednotky integrující nosič a na něm (v něm) fixované informace stává integrita samotného digitálního záznamu, kterou nelze zúženě interpretovat jako pouhý přenos záznamu z jednoho média na druhé (strategie archivace digitálních dokumentů), zatímco nosič ustupuje do pozadí, což je patrné především, ale nikoliv výhradně, u dokumentů šířených po síti. K tomu je však třeba dodat, že jde jen o zdánlivě jednodušší situaci ze strany knihoven - naopak závislost digitálních dokumentů na určitém technickém prostředí, v němž sice vznikly, činí tento problém komplexnější než v případě analogových dokumentů.
Ochrana či archivace digitálního záznamu (v anglické terminologii "digital preservation"), je definována jako soubor vzájemně provázaných opatření a metod technické a organizační povahy týkajících se uložení, administrace a zpřístupnění digitálního záznamu (digitálních objektů), jejichž smyslem je zabezpečit, že bude možné jeho dekódování v dlouhodobé perspektivě (tj. po dobu, která není předem ohraničena) s vědomím, že vlastnosti technických prostředků, které budou k tomuto účelu aplikovány v budoucnosti, nelze v současnosti dostatečně popsat. M. Fresko a K. Tombs upozorňují na nepřesnou interpretaci pojmu "archivace digitálního záznamu", resp. jeho zaměňování s digitalizací ve smyslu reformátování (ochrana analogových dokumentů prostřednictvím digitalizace). [9]
Často se - jako odpověď na příliš optimistická až nekritická tvrzení o přednostech digitálních informačních technologií - zdůrazňuje, že komunikace v digitálním prostředí je v zásadě ambivalentní. Digitální dokumenty lze sice snadno, rychle a flexibilně podle potřeby zpřístupnit a modifikovat a digitální záznam potenciálně vydrží neomezeně dlouho, zároveň jsou však velmi křehké. Zatímco knihy přečkaly několik stovky let a stále jsme schopni je přečíst (navzdory technologickým změnám v jejich výrobě jde o týž informační systém), digitální dokumenty bez ohledu na jejich fyzickou životnost mohou snadno ztratit svou funkčnost tím, že přestanou být k dispozici dekódovací zařízení. Není daleko od pravdy K. Rusell, který konstatuje, že digitální dokumenty nejsou "artefakty", ale "signály", které je třeba obnovovat, jinak navždy zmizí. [10]
P. Conway dokládá tyto dva charakteristické znaky digitálních dokumentů (flexibilitu a křehkost) na základě srovnání hustoty záznamu deseti nosičů (či psacích látek zhotovených pomocí různých technologií), které se v dějinách lidské civilizace používaly v nepřímé sociální komunikaci (hliněná tabulka, papyrus, pergamenový rukopis, starý tisk, strojově tištěná kniha, noviny, mikrofilm, mikrofiš, disketa a optický disk), s průměrnou dobou jejich životnosti. Autor dospívá k závěru, že zatímco do éry průmyslového tisku v polovině 19. století při trvalém poklesu životnosti nosiče v čase hustota záznamu kolísala v rozmezí 25 až 140 znaků na čtverečný palec, od tohoto mezníku lze sledovat pokračující pokles životnosti a zároveň exponenciální nárůst hustoty záznamu. Tento fakt považuje P. Conway za ústřední dilema digitalizace. [viz graf znázorňující vztah těchto dvou veličin - 11]
V souladu s tímto názorem se zprvu předpokládalo, že nejkritičtější faktor uplatnění digitalizace představuje právě trvanlivost nosičů digitálního záznamu. Tato teze byla postupně revidována, neboť zkušenosti z realizace rozmanitě zaměřených projektů digitalizace, v konfrontaci s poznatky získanými z dosavadního vývoje softwaru a hardwaru prokázaly, že čitelnost digitálního záznamu významněji ovlivňují přístupový software, svázanost s původní softwarovou a hardwarovou platformou a datové a metadatové formáty, i když samozřejmě životnost nosičů je třeba nadále brát v úvahu. [12] Údaje, které se objevují ve firemní literatuře a podle nichž je životnost CD-ROM garantována až dvě stě let, je třeba považovat za nadnesené. Reálná životnost se pohybuje v rozmezí 10 až 20 let podle frekvence využívání. Proměnlivost v prvních dvou jmenovaných oblastech dosahuje vyšší dynamiky (podle zprávy expertní skupiny Task Force on Archiving of Digital Information stárnutí těchto technologií probíhá ve dvou- až pětiletých cyklech), k čemuž je třeba připočítat nízký stupeň kompatibility jednotlivých systémů, než v oblasti optických záznamových médií, v níž se nadto daří - vesměs z pragmatických důvodů - dohodnout na přijatelné míře standardizace na mezinárodní úrovni. [13]
V praxi to znamená, že morální životnost technologií a technických zařízení, která slouží k dekódování digitálního záznamu, je kratší než fyzická životnost médií, na nichž je uložen. Tato skutečnost by neměla vést k nesprávnému a ve svém důsledku alibistickému rozhodnutí, že je třeba zatím vyčkávat, až budou k dispozici všeobecně akceptovatelné standardy, protože lze s vysokou mírou pravděpodobnosti odhadnout, že vývoj informačních technologiích se stěží zastaví ve stádiu, kdy je bude možné využívat, aniž by hrozilo riziko, že budou později shledány zastaralými. [14]
Podle A. K. Pace tato situace, které musíme čelit na konci 20. století, vyvolává reminiscenci na období, kdy s cílem vyhovět rapidně rostoucí poptávce po literární produkci bylo řešení problému uchování knih ohrožených kyselostí papíru, na němž byly tištěny, odsouváno na neurčito. [15] Ve světle dnes známých okolností se jeví podle některých autorů problém ochrany tradičních dokumentů ve srovnání s problémem uchování digitálního záznamu do budoucnosti v čitelné podobě jako méně závažný. [16]
V reakci na rostoucí význam elektronického publikování však vzniká iluze, která může vést k podcenění problému ochrany digitálních dokumentů, která jako by ztrácela na své důležitosti či se dokonce chápala jako zbytečné plýtvání finančními prostředky knihoven: informace slouží pouze k "okamžité spotřebě", je třeba se smířit s tím, že jejich životnost je a priori krátká, a v případě nutnosti ji lze libovolně prodloužit pořízením nekonečného množství kopií bez ztráty kvality.
Na tuto iluzi poukazuje i T. Kunny, který se obává škodlivých důsledků plynoucích z nadmíru optimistických až nekritických předpovědí, které se týkají možností, jež nabízejí digitální informační technologie. Ve své často citované práci doslova uvádí: "Stojíme na prahu éry (nazvané autorem "digitální temno" - pozn. F. V.), v níž mnohé informace, které jsou zapsány v elektronické formě, budou navždy ztraceny. Knihovny a archivy musí sehrát stejnou roli jako dříve kláštery: zachovat zaznamenané dědictví pro další generace." [17] Takto vyhraněně formulovaný názor je ojedinělý, nicméně začíná převládat postoj tzv. racionální skepse (informed skepticism), který vychází ze zkušeností z tvorby a archivace digitálních dokumentů ve vyspělých zemích a který je založen na vědomí, že navzdory sílícímu významu těchto technologií jako nezbytného atributu fungování informačních systémů a služeb budou vedle sebe existovat v budoucnu analogové a digitální dokumenty, přičemž substituce jednoho typu dokumentu tím druhým se neobejde v určitém ohledu bez určité ztráty informační hodnoty, resp. bude klást různé nároky při jejich recipování. Autoři zastávající toto stanovisko rovněž podporují hybridní technologii ochranného mikrofilmování a digitalizace. [18]
J. Feather konstatuje, že rozšíření komerčních informačních produktů (různé typy dokumentografických a plnotextových zdrojů) distribuovaných na CD-ROM v knihovnách od počátku 90. let se nestalo prvotním impulsem k tomu, aby věnovaly problematice ochrany digitálních dokumentů přílišnou pozornost, protože odpovědnost za údržbu těchto systémů, které jsou navíc v pravidelných cyklech aktualizovány, resp. za dostupnost dat, která jsou jejich součástí, leží primárně na jejich producentech nebo dodavatelích. Pro situaci na trhu s těmito produkty je charakteristická vedle nízké míry standardizace nestabilita podnikatelských subjektů (z hlediska zájmu knihoven dlouhodobě archivovat jimi vydávané dokumenty). [19] T. Kunny k tomu dodává, že jejich přirozeným záměrem je vyvíjet proprietární systémy, jejichž morální životnost je omezena, které vyžadují kontinuální obnovu a jedině tak přinášejí zisk, resp. úspěch v konkurenčním soupeření. [20] Odpovědnost knihoven v případě těchto produktů spočívá v zajištění šetrné manipulace a vhodných podmínek pro jejich uložení. Na rozdíl od akvizice externích digitálních dokumentů při vlastní produkci digitálních dokumentů je výchozí pozice dané instituce ve sféře archivace digitálního záznamu příznivější, protože může plně ovlivňovat všechny fáze tohoto procesu, může postupovat pragmaticky, tj. implementovat takové řešení vyhovující konkrétním podmínkám, které umožní dlouhodobé využívání těchto dokumentů, což však současně znamená na jedné straně provádět aspoň elementární výzkum a na straně druhé pečlivě monitorovat vývoj v této souvislosti v klíčových oblastech (grafické formáty, metadatové formáty, fyzické nosiče digitálního záznamu). [21]
3. Strategie archivace digitálních dokumentů
Jádro procesu dlouhodobé archivace a zpřístupnění digitálních dokumentů v rutinním režimu tvoří z technického a také z administrativního hlediska jedna ze čtyř strategií, která je implementována s cílem umožnit překlenout morální stárnutí technologií, aniž by došlo k nežádoucímu narušení integrity digitálního dokumentu (vedoucí v praxi k redukci jeho informační hodnoty), který můžeme chápat jako soustavu elementárních digitálních objektů. Při formulování strategie je třeba brát v úvahu (jako v případě realizace jakéhokoliv projektu) disponibilní finanční zdroje, technické a personální zázemí a v neposlední řadě druh dokumentů, které mají být v digitálním archivu uchovány. K těmto základním strategiím, které jsou v literatuře hodnoceny, patří migrace, emulace digitálního prostředí a technologické muzeum a konverze digitálních dokumentů do analogové formy, která má povahu krajního nebo dílčího řešení. Přestože první z nich je jednoznačně považována ze nejperspektivnější, ani její stoupenci ji neoznačují za optimální.
Ve strategii hrají důležitou roli metadata, která jsou obecně definována jako strukturovaná data o jiných datech. Metadata jsou sice data od primárních dat odvozená, ale nehrají podružnou roli, neboť za prvé činí primární data srozumitelnými, tj. zajišťují jejich dekódování, a za druhé stanoví rámec, v němž je možné je využívat. Z tohoto hlediska je hlavním smyslem metadat poskytovat přidanou informační hodnotu k primárním datům. [22] Dlouhou dobu byla metadata na prvním místě spojována s dokumenty zpřístupněnými v prostředí WWW, a to v souvislosti s několika iniciativami, u jejichž zrodu stály knihovny a další informační instituce. Cílem těchto projektů je usnadnit jednak jmennou a věcnou klasifikaci těchto zdrojů se specifickými vlastnostmi a jejich účinné vyhledávání. Nejrozšířenějším metadatovým schématem je bezesporu Dublin Core Element Set, které dnes zahrnuje celkem 15 položek-elementů (ve verzi 1.1 schválené v červenci 1999).
Využití metadat se však vztahuje na všechny digitální dokumenty bez rozdílu jejich provenience, i když se příslušné metadatové kontejnery, které mohou být zapouzdřeny do vlastního primárního dokumentu (např. Dublin Core Element Set) nebo být uloženy v samostatném souboru (podobně jako tomu je dnes u katalogizačních záznamů), budou lišit ze sémantické a syntaktické stránky.
A. Knoll dokládá roli metadat v archivaci digitálních dokumentů na příkladu etruských nápisů, které se, vytesané na kamenné desce, dochovaly neporušené do současnosti, je možné rozeznat jednotlivé znaky, ale nikoliv porozumět jejich obsahu, protože k tomu není v dostatečné míře znám kontext, v němž vznikly. [23] S cílem zabránit tomu, aby u digitalizovaných dokumentů nastala analogická situace, navíc po uplynutí nepoměrně kratší doby, je nezbytné aplikovat metadata v takové formě, aby jejich čitelnost nebyla svázána s konkrétní softwarovou platformou, hardwarovým vybavením a v neposlední řadě s přístupovým softwarem - nejlépe tedy jako prostý text podle všeobecně přijatelného standardu, kterým je dnes kód ASCII, avšak který bude pravděpodobně nahrazen univerzálním kódem Unicode umožňujícím využití různých znakových sad (národních abeced) v jednom elektronickém dokumentu.[24]
Popisná metadata je třeba proto doplnit technickými metadaty, která především zabezpečují integritu složeného dokumentu, specifikují mapu vyskytujících se digitálních objektů, přesně definují vztah tohoto dokumentu k nosiči, na kterém (kterých) je aktuálně fixován. Tento typ metadat může dále zahrnovat údaje o původním softwarovém a hardwarovém prostředí pro jejich eventuální budoucí emulaci (viz odst. 3.1.2) a - v případě digitalizovaných dokumentů - technické parametry snímacího zařízení, pomocí něhož byly digitální kopie pořízeny, za účelem optimalizace jejich pozdějšího dekódování.
Nejčastěji v reálných podmínkách uplatňovanou archivační strategii (nejen v informačních institucích, ale i v podnikové sféře) představuje migrace, která sice vyžaduje značné investice, ale z dlouhodobého hlediska je finančně efektivní. Při migraci, kterou doporučuje např. již zmíněná zpráva Task Force on Archiving of Digital Information, dochází k periodickému transferu digitálních dokumentů ze starší generace digitálního prostředí, které je morálně zastaralé, do generace mladší. [25] Primárně je tak věnována pozornost obsahové složce těchto dokumentů. Termínem "digitální prostředí" se rozumí hardwarová a softwarová platforma a aplikační software. Dodejme, že migrace není v knihovnách nic nového - stačí připomenout retrokonverzi lístkových katalogů. Jelikož původní a cílové prostředí vykazují rozdíly v některých nebo všech svých atributech (organizace digitálních objektů - metadatové formáty, kódování zobrazení digitálních kopií - datové formáty, aplikační software a softwarová a hardwarová platforma), migrace má či může mít dopad na informační hodnotu digitálních objektů (např. jazyk, kvalitativní hladina aj.). Jeho stupeň se odvozuje primárně od úspěšnosti převodu metadatových struktur, ale také na formu jejich prezentace (např. jiný aplikační software - např. přídavný modul k webovskému prohlížeči, jiné rozhraní, nároky na výkon počítače aj.). Typickým příkladem jsou informační systémy původně fungující pod Windows 3.11, které není možné spustit pod v současnosti běžnou platformou Windows 95/98/2000. Dokumenty, které vznikají při vlastních projektech digitalizace, jsou (resp. mohou být) ve srovnání s externími digitálními dokumenty přirozeně zvýhodněny vzhledem k potenciálně vyšší míře jejich standardizace.
Migrace je proces v podstatě nevyhnutelný, což je dáno kontinuálními změnami v oblasti digitálních informačních technologií, které byly zmíněny v odst. 2. Z hlediska ochrany digitálního záznamu ideální, avšak v praxi nedosažitelný stupeň univerzálnosti, kdy je zaručena dlouhodobá čitelnost digitálního dokumentu bez ohledu na dané digitální prostředí, v němž je využíván (např. text v prostém ASCII kódu bez jakéhokoliv formátování, tj. jako nepřetržitý sled znaků), nemá smysl uvažovat.
Migrace zpravidla zahrnuje dílčí operaci - kopírování digitálního záznamu, aniž by bylo nutné jej modifikovat, na nový nosič (tzv. refreshment), které se dnes provádí v podstatě v rutinním režimu ze dvou důvodů: buď fyzická životnost konkrétního nosiče (např. CD-ROM) se chýlí ke konci, a proto hrozí nebezpečí, že záznam bude ztracen, nebo se oprávněně předpokládá, že aktuální typ nosiče se výhledově stane morálně zastaralým (např. náhrada magnetooptického disku CD-ROM). Tato konverze se může týkat i datového formátu podle toho, k jakému účelu se digitální kopie mají využívat. Dalším opatřením, které je podporováno producenty softwarových aplikací a hardwarových zařízení, je zpětná kompatibilita (modernější systémy jsou schopny dekódovat starší digitální dokumenty - např. MS Word 2000 > MS Word 97 nebo mechaniky DVD-ROM > CD-ROM). Komplikovanější situace nastane tehdy, pokud chceme dosáhnout interoperability u aplikačního softwaru od různých producentů (jako příklad může posloužit ztrátová konverze mezi textovými editory MS Word a Corel WordPerfect). Určité, avšak nedokonalé řešení spočívá v tom, že vybereme formát, který se jeví jako do jisté míry standard v dané oblasti, a proto se lze s vysokou mírou pravděpodobnosti spolehnout, že soubory v něm uložené budou čitelné (např. formáty RTF u textových dokumentů nebo JPEG u rastrových obrazových dokumentů). Jakou dobu to bude platit, lze jen stěží dnes předvídat.
Strategie emulace digitálního prostředí, která od počátku vzbudila značnou pozornost odborné veřejnosti, avšak její přínos nebyl dosud praktickými zkušenostmi potvrzen ve větším měřítku, je založena na opačném principu než migrace. Zásady emulace publikoval J. Rothenberg, s jehož jménem je obvykle spojována, ve studii zpracované pro americkou nevládní organizaci Council on Library and Information Resources, která se zabývá problematikou digitálních knihoven [26]. Podobné pojetí ochrany digitálního záznamu navrhuje S. B. Robertson v modelu Digital Rosetta Stone. J. Rothenberg se domnívá, že univerzálním a potenciálně nejméně složitým způsobem ochrany digitálního záznamu je jeho archivace v originálním formátu spolu s originálním aplikačním softwarem a zajištění jeho funkčnosti a chování prostřednictvím imitace vlastností digitálního prostředí, v němž vznikl. Na rozdíl od migrace, kterou podrobil nesmlouvavé kritice (považuje ji za finančně, organizačně a časově náročnou a především riskantní strategii, neboť vykazuje příliš vysokou chybovost), emulace je postavena na jednotném softwarovém principu, který lze aplikovat kdykoliv a nezávisle na formátu daného dokumentu. Díky tomu lze překonat trvalou nejistotu z dalšího vývoje technologií, které jsou nezbytné pro dekódování digitálních dokumentů.
Aby bylo dosaženo zamýšleného efektu, je třeba identifikovat a zapsat množinu metadat (tento krok považuje A. Knoll za slabou stránku této strategie [27]), která jsou rozdělena do tří skupin a která jsou buď zapouzdřena v dokumentu nebo uložena v externí databázi. V první skupině budou obsažena technická metadata reprezentující prvky původního digitálního prostředí (aplikační software a hardwarová a softwarová platforma), zatímco v druhé skupině bude specifikován samotný emulátor v takové podobě, aby mohl být interpretován jakýmkoliv překladačem, který bude v budoucnu vyvinut a instalován jako nadstavba nového digitálního prostředí, tj. aby mohl být spuštěn v aktuálním operačním systému a pomocí aktuálního hardwarového vybavení. Třetí skupinu tvoří technická dokumentace o využití emulátoru, popisná metadata vztahující se k danému digitálnímu dokumentu (včetně okolností jeho vzniku a jeho úpravách) ve formě prostého textového souboru. Dokument, emulátor a aplikační software musí být fixován na nosiči, který je podporován stávajícím prostředím, z čehož vyplývá, že emulace počítá přinejmenším s kopírováním záznamu (viz odst. 3.1.1). [28]
Rothenbergova studie vzbudila značný ohlas a dodnes patří k nejcitovanějším zdrojům v teoretických pracech týkajících se této problematiky i technických zpráv o stavu řešení jednotlivých projektů (např. britský CEDARS, australský PANDORA, americký National Digital Library Program-American Memory aj.). Autoři nejsou (z praktického hlediska) v hodnocení Rothenbergova pojetí jednotní (třebaže často konstatují jeho správnost z koncepčního hlediska) - objevují se názory skeptické až odmítavé [29], neutrální [30] i souhlasné [31]. Nejostřeji proti emulaci vystoupil D. Bearman, který tuto strategii označil za zcela nevhodnou ve své podstatě, jelikož se orientuje nesprávným směrem: namísto digitálního záznamu sleduje archivaci originálního digitálního prostředí. [32] Emulace je od května 1999 testována v nizozemské Královské knihovně v rámci mezinárodního projektu NEDLIB. Pro tyto účely bylo vybráno šest interaktivních CD-ROM a CD-I a pět článků z odborných periodik ve formátu PDF. NEDLIB je spolufinancován Evropskou komisí (program Telematics for Libraries) a na jeho realizaci se podílí dále sedm centrálních západoevropských knihoven, jeden archiv, dvě soukromé společnosti působící v oblasti informačních technologií a tři vydavatelé (mj. Elsevier Science). Hlavním cílem projektu je specifikace obecné funkční architektury, zejména datového toku, depozitní knihovny elektronických dokumentů (DSEP). NEDLIB se opírá o referenční model Open Archival Information system (OAIS), který je rovněž implementován v projektech CEDARS a PANDORA. Dílčí zpráva, která uvádí, že byly zjištěny až překvapivě malé odchylky mezi chováním systému původně určeného pro platformu Windows 95 a po jeho emulaci na počítači Macintosh, byla o tomto experimentu publikována v květnu t. r. [33] Konečné výsledky by měly být prezentovány na semináři "Setting up Deposit Systems for Electronic Publications (DSEP)", který se uskuteční 15. prosince 2000 v Haagu a o němž přineseme referát v příštím čísle.
Pod pojmem technologické muzeum se rozumí deponování digitálního záznamu v podstatě jako artefakt v originálním formátu a prostředí a na originálním nosiči. [34] Tato strategie, která předpokládá, že originální digitální prostředí nelze přesně reprodukovat, a proto je nanejvýš užitečné, aby nebylo konvertováno (migrace) nebo emulováno, se týká nejen digitálních dokumentů (zejména se ukazuje jako nezbytná v případě, že nedošlo včas k jejich migraci nebo kopírování), ale rovněž analogových dokumentů, k jejichž dekódování je nezbytné technické zařízení (např. diapozitivy, vinylové gramofonové desky atd.). Nevýhody tohoto řešení jsou patrné: počet kombinací hardwaru a softwaru pro jednotlivé dokumenty nebo jejich druhy z hlediska správy by nutně časem přesáhly únosnou mez. K zachování jejich funkčnosti by navíc bylo třeba komponentů, které nelze již na trhu získat. [35] Naprostá svázanost s originálním prostředím by bránila zpřístupnění těchto dokumentů jinak než v lokálním režimu. [36] Tuto strategii je možné akceptovat jen pro krátký časový interval. Z dlouhodobého hlediska je nutné zvolit buď migraci, nebo emulaci.
Strategie konverze digitálních dokumentů do analogové formy se opírá o skutečnost, že ochranné metody aplikované u analogových dokumentů jsou dostatečně ověřeny. Nesporně vyšší stabilita tradičních materiálů v čase (pokud jsou uloženy v odpovídajících mikroklimatických podmínkách) a jejich nezávislost na proměnlivosti technických prostředků pro účely dlouhodobého uchovávání je vykoupena tím, že analogové kopie jsou ochuzeny o všechny přednosti svých předloh, kvůli nimž byly digitální dokumenty vytvořeny a které se projevují především při jejich zpracování a zpřístupnění (strojové vyhledávání, hypertext, multimedialita, databázová struktura, dynamičnost, interaktivnost aj.). Z tohoto důvodu nejde podle J. Rothenberga o způsob, se kterým bychom se měli v širším měřítku zabývat jako seriózním alternativním řešením problému ochrany digitálního záznamu. [37] V případě statických textových dokumentů (uložených např. v rozšířených formátech PDF a RTF) může být tato strategie aplikována s cílem zajistit kopii, která bude k dispozici i tehdy, když elektronický originál nebude dále přístupný.
V úvahu přicházejí dva typy nosičů: papír a mikrofilm. V prvním případě (papír mj. doporučuje jako archivační médium v materiálu týkajícím se povinného výtisku elektronických publikací Rada ředitelů národních knihoven) [38] má smysl v této souvislosti se zabývat pouze tiskem na tzv. permanentní papír, který ve srovnání s dosud běžně používaným, průmyslově vyrobeným papírem, který je méně odolný vůči vlhkosti a plynným exhalátům, obsahuje menší podíl kyselotvorných substancí a zásaditou složku o určitém množství jako alkalickou rezervu. Hodnota pH se pohybuje v rozmezí 7.5-10, díky čemuž by se životnost papíru splňujícího tato kritéria měla prodloužit až na stovky let. Vlastnosti permanentního papíru, na který se tisknou některé odborné časopisy (např. Journal of American Society for Information Science), jsou specifikovány v normě ISO 9706:1994 navazující na obdobný americký standard ANSI/NISO Z39.48-1984, který byl aktualizován v roce 1997. [39] Druhou možností je převod digitálního záznamu na mikrofilm, který umožňuje, o čemž svědčí projekt realizovaný na Cornell University v roce 1994, zachytit černobílé digitální obrazy (bitonální mód) ve vysokém rozlišení (600 dpi). Stejně jako v předchozím případě platí, že při této konverzi dojde k zákonitému ochuzení dokumentu. Tento systém, při němž se uplatňuje opačný postup než hybridní technologie (produkce archivních mikrofilmů a digitalizace mikrofilmů druhé generace určené ke zpřístupnění), je znám pod zkratkou COM (computer-output microfilm). [40]
4. Závěr
Rozvoj elektronického publikování (zejména na Internetu) přinesl v druhé polovině 90. let obrovský nárůst dokumentů, které existují pouze v digitální podobě, nezřídka proto, že se pro vydavatele ukazuje ekonomicky neefektivní jejich vydávání tiskem a současně pro cílové uživatelské skupiny je pohodlnější přístup prostřednictvím WWW. Proměnlivost (až chaos), která vládne v tomto prostředí, způsobuje, že knihovny musejí hledat pro ně nezvyklé cesty, jak tyto dokumenty identifikovat, zpracovat a v neposlední řadě (v souladu s příslušnými ustanoveními autorského zákona, který je v některých zemích novelizován, aby lépe odpovídal aktuálnímu stavu v této oblasti) zajistit jejich archivaci, která má smysl pouze tehdy, pokud slouží k tomu, aby dokumenty, kterých se týká, byly zpřístupněny. Ústředním problémem, s kterým je třeba se vyrovnávat, je skutečnost, že digitální informační technologie, bez nichž jsou digitální dokumenty lidskými smysly nevnímatelné, morálně zastarávají. Archivace a zpřístupnění digitálních dokumentů jsou předmětem mnoha projektů, které jsou v současnosti řešeny v západní Evropě, USA, Kanadě a Austrálii, zpravidla na úrovni centrálních nebo depozitních knihoven. Vesměs se v materiálech, které jsou v jejich rámci zveřejněny, doporučuje migrace jako vhodná, nikoliv však ideální strategie archivace digitálních dokumentů. Zvláštní pozornost je soustředěna na projekt NEDLIB, kde se podle konceptu J. Rothenberga testuje emulace jako alternativní strategie.