Rosetta – cesta k dlouhodobému uložení digitálních objektů
Dlouhodobá ochrana digitálních objektů
V souvislosti s digitalizací i s nárůstem počtu dokumentů vznikajících pouze v digitální podobě se stále častěji mluví o nutnosti zabezpečit použitelnost a přístupnost digitálních objektů v dlouhodobé perspektivě. Nejedná se pouze o potřebu bezpečného uložení objektů, ale i o uchování tzv. reprezentační informace, která by měla zajistit, že dokument bude možné jednoduchým způsobem zobrazit třeba i v případě, že formát, ve kterém byl dokument původně uložen, zastará a nebude již běžně využíván. Ani to samo o sobě nestačí – objekt je třeba neustále sledovat a kontrolovat, zda není poškozen. Stejně tak musí být kontrolována i cílová skupina uživatelů objektu – mají stále patřičné vybavení, které jim umožní objekt zobrazit? V neposlední řadě je třeba myslet i na nejrůznější katastrofické scénáře. Co když bude médium, na kterém jsou data uložena, poškozeno nebo dokonce zničeno? A co v případě nutnosti přechodu na jiný software? Větší část těchto otázek je – po prostudování odborné literatury a možná po návštěvě několika málo konferencí – možné zodpovědět. Ale jak tyto odpovědi převést do praxe?
Knihovny se mnohdy soustředí pouze na digitalizaci a v lepších případech i na tvorbu metadat, ale opomínají nutnost preventivních akcí směřujících k ochraně digitálních objektů. Přitom zrovna prevence může mnohdy z dlouhodobého hlediska ušetřit velké množství práce a samozřejmě i finančních nákladů, které s sebou nese zpětná reindexace, migrace či dokonce redigitalizace fondu.
S velikostí té které instituce samozřejmě stoupají i finanční a personální náklady na dlouhodobé zabezpečení digitální sbírky. Preventivní opatření i neustálou kontrolu vyžadují samozřejmě sbírky jakékoli velikosti a i v rámci malé kolekce je třeba věnovat pozornost i maximální možné automatizaci všech činností spojených s dlouhodobou ochranou digitálních objektů – ať už se jedná o vstupní zpracování (např. generování technických metadat), tak o průběžné aktivity (např. sledování neměnnosti kontrolního součtu pro daný soubor). Neúnosnému nárůstu časové náročnosti administrace úložiště je možné zabránit pouze využitím robustních a specializovaných systémů.
Rosetta
Jedním z nemnoha systémů, které tyto požadavky splňují, je produkt Rosetta [4] společnosti ExLibris. Jak již bylo předesláno, Rosetta je systémem určeným pro široké velikostní spektrum institucí, počínaje národními knihovnami a konče malými institucemi (např. muzei). První institucí, kde byla Rosetta implementována, je Národní knihovna Nového Zélandu. Tato knihovna je s projektem Rosetta provázána velmi úzce. Byla totiž přímým partnerem ExLibris při vývoji samotného systému. Spolupráce byla (a stále je) výhodná pro obě strany – knihovna získala produkt odpovídající jejím představám a navíc podporovaný společností dlouhodobě úspěšně působící v oblasti knihovnictví. Oproti tomu pro ExLibris byla spolupráce s knihovnou neocenitelným zdrojem inspirace přímo z praxe. Navíc poskytla možnost ověřit si, že navrhované funkce systému skutečně odpovídají reálným uživatelským potřebám. První verze systému Rosetta byla na Novém Zélandě uvedena do provozu na podzim roku 2008 a od té doby je knihovnou úspěšně využívána. Samozřejmostí jsou i pravidelné upgrady systému – aktuálně je zde v provozu již druhá verze Rosetty.
Ale Rosetta samozřejmě není produktem šitým na míru pouze jedné knihovně. Důkazem toho může být i skutečnost, že respektuje zavedené standardy pro oblast dlouhodobé ochrany digitálních objektů – jedná se zejména o referenční model OAIS (Open Archival Information System)[1] a o datový model PREMIS [2]. V současné době je Rosetta již využívána i dalšími zákazníky společnosti ExLibris [5].
Rosetta a OAIS
Model OAIS vymezuje několik základních entit, ze kterých se archiv skládá, a definuje také vztahy mezi nimi. Byl vyvinut v souvislosti s vesmírným výzkumem a získal si velké uznání odborné veřejnosti. Softwarové nástroje určené k dlouhodobé archivaci digitálních dat tento model obvykle ve většině významných bodů kopírují. Rosetta není výjimkou. Obsahuje moduly pro vkládání dat, jejich správu, pro administraci celého systému, dále publikační modul pro zapracování výstupů ze systému a samozřejmě i modul pro permanentní uložení dat. Výše uvedené moduly doplňuje modul pro plánování ochrany, který je určen jak k tvorbě a testování možných strategií ochrany, tak i k uchovávání informací o jednotlivých formátech. Tzv. knihovna formátů je založena na mezinárodních registrech a kromě možnosti ukládání informací nabízí i prostředky ke sdílení těchto vědomostí (které jsou mnohdy klíčové) v rámci uživatelské komunity.
Obr. 1 – model OAIS (Consultative Committee, 2002)
Rosetta a PREMIS
Datový model PREMIS se spíše než na procesy probíhající v systému soustředí na samotné uložené objekty. Definuje jejich strukturu a vazby mezi jednotlivými objekty. Příkladem může být digitalizovaná historická mapa, která se skládá ze dvou datových listů, z nichž každý je uchováván dvakrát – jednou jako archivní kopie ve formátu tiff a podruhé jako kopie pro zobrazení ve formátu jpeg2000. Společně tyto soubory tvoří tzv. intelektuální entitu (viz obrázek 2).
Obr. 2 – Intelektuální entita dle modelu PREMIS
Datový model PREMIS popisuje, jak jsou mezi sebou tyto objekty provázány a stanoví základní terminologii pro jejich popis. Výhodou tohoto modelu je jeho jednoduchost a přehlednost, která snižuje náročnost případné rekonstrukce objektu. Datová struktura digitálního objektu v systému Rosetta plně respektuje tuto filozofii.
V čem je Rosetta výjimečná?
V první řadě není možné Rosettu srovnávat s komerčními ani s open sourcovými softwary pro digitální repozitáře (DSpace, Kramerius nebo i DigiTool společnosti ExLibris). Ne snad proto, že by tyto systémy byly horší, ale jsou určeny k jinému účelu. S digitálním objektem je v nich zacházeno méně opatrně, neudržují jednotlivé verze objektu, ne vždy obsahují informace o životním cyklu objektu a prakticky zcela chybí nástroje pro plánování ochrany. Tyto funkce je sice možné částečně nahradit externími nástroji, ale vždy se bude jednat o polovičaté řešení vhodné maximálně pro malé instituce.
Obr. 3 – Rosetta, uživatelské rozhraní pro správu systému
V rámci své kategorie je Rosetta výlučná zejména svým původem. Společnost ExLibris má dlouholetou zkušenost s vývojem i provozem knihovních a informačních softwarů, ze které mohla při vývoji Rosetty čerpat. Rosetta je také připravena na úzkou spolupráci s ostatními produkty společnosti ExLibris. Za všechny je třeba jmenovat zejména Primo (viz článek “Chcete mít spokojené uživatele? [9]”), které zajišťuje front end – uživatelské rozhraní pro řadu informačních systémů včetně Rosetty (prostřednictvím protokolu OAI-PHM), a dále také knihovní software Aleph, který umožňuje synchronizaci katalogizačních záznamů s metadatovými záznamy v Rosettě.
Závěrem
Rosetta je komplexní systém vycházející z praktických zkušeností i z nejnovějších teoretických poznatků. Jejím účelem je uložit digitální objekty v podobě, která je optimální pro jejich dlouhodobou ochranu, a zároveň i průběžně zajišťovat jejich přístupnost a použitelnost. S její pomocí bude možné stejně snadno si prohlédnout digitalizovanou knihu dnes, za rok, za deset i za sto let.
- Consultative Committee for Space Data Systems. Reference Model for an Open Archival Information System (OAIS) [online]. Washington (D.C.): CCSDS, January 2002. Dostupný z WWW: <http://public.ccsds.org/publications/archive/650x0b1.pdf [10]>.
- PREMIS Data Dictionary for Preservation Metadata version 2.0. PREMIS Editorial Committee, March 2008. 224 s. Dostupné z WWW: <http://www.loc.gov/standards/premis/v2/premis-2-0.pdf> [11]..
Poznámka redakce: Text je placenou inzercí společnosti MULTIDATA Praha s.r.o.