Digitalizace vzácných dokumentů
Program je vyvíjen a provozován společně těmito institucemi:
Národní knihovna ČR [4]
Albertina icome Praha s.r.o. [5]
Program má blízký vztah k programu UNESCO Memory of the World (Paměť světa) jako program digitálního zpřístupnění vzácných a ohrožených dokumentů.
V programu nyní probíhá:
- rutinní produkce dat
- bohaté aktivity mající charakter výzkumu a vývoje
- speciální projekty (například vydávání speciálních katalogů orientálních rukopisů na CD-ROM)
Memory of the World (MW) je programem UNESCO vzešlým ze Všeobecného informačního programu (PGI = Programme général d´information) v r. 1992. PGI je formulován Mezivládní radou PGI, složenou z volených členských zemí; již po druhé volební období je ve výboru PGI také Česká republika. Samotný program Paměť světa je řízen Mezinárodní poradním výborem. (International Advisory Committee, 14 členů jmenovaných generálním ředitelem UNESCO)
International Advisory Committee (IAC)
Vytyčuje hlavní směry rozvoje Memory of the World jako programu záchrany světového kulturního dědictví, uchovaného v dokumentech. Jeho cílem je podnítit aktivitu členských zemí UNESCO směřující k ochraně tohoto kulturní dědictví a k jeho lepšímu informačnímu zpřístupnění. Jednou z novějších podstatných aktivit je průběžné sestavování soupisu nejvýznamnějšího dokumentového dědictví, majícího celosvětový význam. Jednotlivé nominace jsou posuzovány IAC.V rámci IAC pracují dvě subkomise: subkomise pro technologii a subkomise pro marketing
Na členských státech je pak požadováno, aby zřídily národní komise MW nebo aby k tomu využily stávajících komisí a aktivit.
Sub-Committee on Technology
Subkomise pro technologii vydala již tato doporučení:- General Guidelines (1995) v nich i doporučené parametry digitalizace, neboť MW je programem ochrany a zpřístupnění
- A Guide to Standards, Recommended Practices and Reference Literature Related to the Preservation of Documents of All Kinds (1998)
- formát DOBM - doporučená struktura digitálního dokumentu MW (1999) - vyvinut AiP a NK a publikován na CD-ROM a ve zkrácené verzi na Internetu
- nyní probíhá revize parametrů digitalizace, tj. doporučených formátů a jejich parametrů pro digitální přepis všech typů klasických dokumentů
Milníky naší účasti v programu Paměť světa
1992 první kontrakt s UNESCO, zhotovení CD-ROM s digitalizovanými ukázkami1993 vydání 1. CD-ROM v programu UNESCO Paměť světa - tzv. Pražský projekt
1996 společné zasedání Subkomise pro technologii programu Paměť světa a souvisejících evropských programů v Praze (Národní knihovna ČR)
1996 verze 1.11 nových pravidel strukturování metadat (DOBM)
1996 školení UNESCO pro odborníky ze zemí střední a východní Evropy v Praze (NK)
1997 projekt výzkumu a vývoje
1997 upgrade technického vybavení
1997 databáze digitalizovaných dokumentů na Internetu [6]
1997 první vydání formátu DOBM, verze č. 2
1998 konkrétní aplikace DOBM na několik druhů dokumentů
1998 digitalizace starých zvukových nahrávek
1998 druhá provozní digitalizační linka
1999 publikování konečné verze struktury DOBM a její přijetí jako standardu programu ‚Paměť světa‘ UNESCO
1999 spolu s časopisem IKAROS testování datového formátu DjVu; katalog arabských rukopisů v DjVu na Internetu (viz server digit.nkp.cz) vyhlášen firmou AT&T jako světový DJVU Site of the Month (srpen)
Hlavní aspekty programu digitalizace
Kromě základních filozofických východisek se dají rozlišit v programu digitalizace tyto hlavní podskupiny:- Vývoj forem maximálně nezávislých na měnícím se SW a HW prostředí
pořizování dat a datové formáty,
metadatový kontejner a jeho struktura včetně vazeb na data:
digitální data mají mezi sebou vazby a soudržnost stejně jako části originálu - Vývoj obecných prostředků umožňujících práci s těmito formami - přístup k datům.
- problematika dlouhodobého uchování a využitelnosti digitálních dat.
Digitální svět versus Reálný svět
Abychom dokázali dobře formulovat a provozovat program digitalizace je třeba stále hledat a ověřovat odpovědi na tyto otázky:- Proč digitalizovat?
- Co produkujeme?
- Co zpřístupňujeme?
- Co chráníme?
Naše dopovědi pak určují charakter a parametry příslušného digitalizačního programu.
Digitální versus Analogový
Dokumenty lze definovat jako zakódovanou informaci zapsanou na fyzický nosič.Binárně zakódovaná informace je oddělitelná od fyzického nosiče; lze tak hovořit o kódování nezávislém na konkrétním nosiči.
U digitálního dokumentu lze rozlišit existenci dvou autonomních systémů:
- Fyzický nosič
- Digitální informace
U klasického dokumentu naproti tomu tvoří fyzický nosič (papír…) včetně materiálu nezbytného pro zakódování analogové informace (barviva…) a vlastní informace jeden komplexní systém, ve kterém se všechny jeho komponenty neustále chemicky a fyzikálně ovlivňují. Jde o kódování informace závislé na konkrétním nosiči; samotnou informaci nelze v čistém stavu oddělit a plnohodnotně přenést jinam.
Digitální informace versus Analogová informace
Digitální- je snadné kontrolovat integritu dat
- přehrání a kopírování neznamenají ztrátu informací
- je velmi obtížné kontrolovat integritu dat
- přehrání a kopírování jsou vždy ztrátové
Zakódovaná data
Dokumenty zastupující originály dokáží našim smyslům přímo zprostředkovat: statický i pohyblivý obraz - technickými prostředky jsou evokovány vizuální počitky podobné pohledu na originální předlohu (malba, kresba, projekce, obrazovka, tisk..), zvuk - technickými prostředky jsou evokovány sluchové počitky podobné poslechu originálu, zatím co TEXT je třeba chápat jako symbolický metasystém evokování obrazů a zvuků, případně i jiných smyslových vjemů.Digitální nebo Analogová informace
Jak obraz, tak i zvuk mohou být zakódovány jak digitálně, tak i analogově.Také text, ale ten je abstrakcí vystavěnou na obrazech a zvucích (případně dalších vjemech) k tomu, aby evokoval v naší mysli žádané obrazy a zvuky, příp. další pocity.
V praxi se oba kódovací systémy doplňují, přičemž transfery mezi nimi jsou velmi časté.
Digitální-Analogový Transfer
- Analogový na Digitální
digitální remastering starých zvukových nahrávek
digitalizace analogových materiálů za účelem jejich snadnější distribuce (fotografie, texty, ...) - Digitální na Analogový
tištěné výstupy z digitálních souborů
analogové kopie audio CD na magnetickou pásku (kazety)
ruční opisování z digitálních pramenů během studia, ...
Proč digitalizovat?
Původně převažoval velmi optimistický přístup: hovořilo se o zmrazení času.Později šlo hlavně o vyloučení přímého užití originálů, a tím jejich lepší ochranu.
Ještě později začal převažovat zájem hlavně o lepší a větší dostupnost dat.
… vše je pravda, neboť v praxi vždy vedle sebe tyto aspekty působí.
Nejvýznamnější v současnosti je pravděpodobně:
pro OBRAZ - zvětšení dostupnosti
pro ZVUK - zvětšení dostupnosti a ochrana
Tyto hranice mohou však být v budoucnu posunuty (např. v oblasti pohyblivého obrazu)
Co produkujeme?
Produkujeme digitální kopie analogových originálů.Produkujeme nové digitální objekty tzn. nové dokumenty.
Přitom je třeba si uvědomit, že chování těchto dokumentů je odlišné od originálu,
ale snaží se komunikovat totéž sdělení, jako to činily originály.
Co zpřístupňujeme?
Zpřístupňujeme totéž základní sdělení formou odlišných dokumentů.Zpřístupňujeme tytéž ideje (myšlenky), jako zpřístupňují originály.
Digitalizace však vytváří pro tyto ideje (myšlenky) nové specifické informační kontejnery, které mají jinou identitu než originální ‚kontejnery‘.
Zpřístupňujeme nové dokumenty, které mají svůj vlastní život.
Co uchováváme?
Uchováváme ideje, jako to činily nové kopie zhotovené středověkými písaři ze starších dokumentů nebo jako tak činí nové edice téhož díla v současné době.Někdy je toto jediná šance, kterou některé dokumenty mají na částečné přežití (zvukové nahrávky).
Jestliže byly digitální dokumenty jednou vytvořeny, měly by být uchovány jako takové (jako digitální dokumenty).
Co bychom měli dělat?
Zvýšit nezbytnou dostupnost k idejím.Prezentovat tyto ideje jako takové bez přidávání našich vlastních idejí a názorů.
Přidávat hodnotu k takto zprostředkovaným idejím nabídnutím lepších nástrojů pro zpřístupnění dat a pro práci s nimi.
Přidávat hodnotu nabídnutím nástrojů na publikování kritických edic.
Vytvořit a formovat nové informační prostředí v digitálním světě.
Využít specifických vlastností tohoto prostředí k novým objevům a obohacení lidského poznání.
Současný stav digitalizace
v NK ČR rutinní digitalizace v potřebné kvalitě,osm projektů digitalizace na stejném základě podpořených ministerstvem kultury:
2x SVK Olomouc, MZK Brno, SOA Jihlava, 2xNárodní Muzeum, knihovna Chrudim, STK Praha.
dlouhodobě použitelné digitální dokumenty nezávislé na SW a HW.
objem digitalizovaných dokumentů je významný (cca 400 rukopisů),
současná střední produkce cca 3 rukopisy/týden.
využívání digitalizovaných dokumentů badateli NKČR má výrazně stoupající tendenci.
Rozsah digitálních dat a efektivita jejich zpřístupňování.
Na produkci digitálních dat musí navazovat prostředky k jejich využívání.Zpřístupňování v badatelně - při malém počtu digitalizovaných dokumentů relativně vysoké náklady a obvykle malé využití - nízká efektivita. To je účelné jen výjimečně, je-li přínosem ochrana a zpřístupnění mimořádného, často vyhledávaného dokumentu.
Zpřístupňování základních informací na Internetu může způsobit zvýšený zájem o originál, proto musí být nejprve akceptovatelně (pro poskytovatele i pro zájemce) vyřešeno zpřístupnění nebo poskytování kopií.
Teprve určité významné množství digitálních dokumentů spolu s prostředky pro jejich zpřístupnění přináší vznik nového informačního prostředí.
To pak teprve vede k dostatečnému využívání technických prostředků a naplňování cílů.
Vznikající systém digitalizace a zpřístupňování digitálních dokumentů v NKČR.
Technické vybavení a jeho využitíŠpičková technika neznamená vždy automaticky vysokou kvalitu a efektivitu.
Potřeba odborné obsluhy a technického zázemí.
Efektivita je v intenzivním využívání (více směn) a sdílení technických prostředků.
Rozdělení odborné a technické stránky, zároveň však intenzivní komunikace. Systém řízení výroby je nezbytný - plánování výroby, optimalizace toků dat, paralelní příprava doprovodných dat, sledování a minimalizace rozpracovanosti,…
Skladování, poskytování kopií a tisků
Systém ukládání digitálních dokumentů,
systém efektivně zpřístupňující tato uložená data uživatelům
formou kompletních kopií, výběrů a to formou digitálních souborů i výtisků,
zakázková služba.
Návaznosti na Internet
Automatizované zpřístupňování základních (volitelných) informací o dosažitelných dokumentech.
Poskytování služeb po Internetu (i placených).
Bezpečnost a životnost digitálních dat
Systém zálohování a sledování používání medií, jejich stáří, statistické prostředky,
průběžná optimalizace sledování na základě měření vlastností medií.
V letošním roce - průběžné budování a zavádění tohoto systému (SAFE).
zprovozněno řízení výroby, digitalizace pro další knihovny a instituce
Problematika dlouhodobého uchování kopií originálů
mikrofilm klady: spolehlivá, zaběhnutá technologie,nízké relativní náklady na dlouhodobé uchování mikrofilmu
jednoduché lokální zpřístupnění. nedostatky: mnohé nelze mikrofilmovat (zvuk, pohyb, velmi drahý barevný obraz)
obtížné plošné zpřístupnění,
nezadržitelná i když pomalá degradace informace pevně vázané na nosné medium. digitální dokument klady: stejně vhodné pro barvu, zvuk, pohyb,
umožňuje využívat počítačové prostředí naší civilizace, snadné plošné zpřístupnění,
digitální informace nedegraduje v čase, stárne pouze nosné medium, na kterém je však informace nezávislá. nedostatky:
Nosná media (např. CD-ROM) degradují oproti mikrofilmu rychle,
media i počítačové platformy stárnou i morálně, je nutno se starat o včasnou migraci dat.
Na migraci dat je nutno myslet již při zahájení každé rozsáhlejší a závažnější digitalizace.
S objemem vyprodukovaných dat roste i objem dat, o které je nutno se starat. Archivaci digitálních dokumentů a odpovědnosti za ně se však nelze vyhnout.
Dva přístupy k zachování digitálních dat
Digitální data jsou nahraditelná.Digitální data jsou vytvářena kvůli zpřístupňování, při jejich případné částečné ztrátě je lze znovu vytvořit.
Typický příklad: Data vzniklá digitalizací mikrofilmů.
Data stačí běžně zálohovat a jejich úplnost a integritu ‚testovat‘ běžným provozem při zpřístupňování.
Při ztrátě provozních dat je lze téměř vždy nahradit ze zálohy. Nelze zcela vyloučit poškození i záložních dat.
Tato pravděpodobnost je však dostatečně malá a především je možnost zopakovat digitalizaci mikrofilmu. Digitální data jsou nenahraditelná
Zde se nejvíce projevuje riziko vyplývající z neprověřenosti dlouhodobé životnosti současných medií.
Samotná záloha také stárne a obvykle chybí informace o jejím objektivním stavu, z čehož plyne riziko ztráty dat i na nepoužívané záloze (viz další text)
Je nutno se starat o preventivní migraci dat na nová media
Toto je nový, specifický obor vyžadující pokračování dosavadního výzkumu.