Konference iPRES 2013
Ve dnech 2.-6. září se již po desáté setkali odborníci a výzkumníci v oblasti dlouhodobé ochrany digitálních dat na konferenci iPRES 2013 – 10th International Conference on Preservation of Digital Objects [5] (viz sborník příspěvků [6]), která je každoročně jednou z nejprestižnějších odborných akcí v oblasti digitálních knihoven, archivů a repozitářů.
Konference, která se letos konala v hlavním městě Portugalska, byla výjimečná i tím, že zde paralelně probíhala také konference "DCMI International Conference on Dublin Core and Metadata Applications". Na 390 účastníků z 37 zemí si tak mohlo poslechnout přednášky z oblasti metadat, digitálních repozitářů, dlouhodobé ochrany apod. Poměrně rozsáhlá fotodokumentace je dostupná na síti Flickr [7].
Tutoriály
Samotným přednáškám předcházely volitelné celodenní tutoriály. Pro ty, kteří chtějí začít se sklízením, správou a archivací webu, byl k dispozici tutoriál "Getting Started in Web Archiving and Web Archives Preservation". Na úvod byl představen model životního cyklu webových archivů [8] "Web Archives Life Cycle Model", který byl zpracován v Internet Archive. Model objasňuje posloupnost kroků a fáze při vývoji a rozvoji archivace webů (politiky, metadata/popis, vize a cíle, management rizik, wokflow, přístup, dlouhodobá ochrana apod.).
Po vysvětlení základních konceptů a principů archivace webu se podrobněji hovořilo o nástrojích na sklízení webů (nejznámější open source Heritrix [9]) a zpřístupňování sklizených stránek (rozšířený nástroj Wayback Machine [10]) a jejich silných a slabých stránkách. V případě Wayback Machine hodně uživatelů bojuje například s “únikem” neveřejných webů na veřejnost nebo s přehráváním YouTube videí vložených do stránek.
Samotný nástroj Heritrix často naráží na problém se streamovaným videem, zaheslovanými stránkami, “keyword databases[1]”, sociálními sítěmi, mobilními aplikacemi a interaktivním obsahem typu Java a Flash. Častou “pastí” pro roboty (z angl. web crawlers) jsou i kalendáře na blozích. Německá národní knihovna (DNB) představila zajímavé řešení archivace německého webu. Knihovna si spočítala, že sklízení webů externí firmou OIA (s fixní cenou za počet sklizní a uchování dat), která pro ně uchová sklizené stránky, je vyjde podstatně levněji než vlastními silami. DNB takto sklizené weby zpracovává jako AIP balíčky (podle OAIS modelu) a uchovává je ve svém interním permanentním úložišti.
Paralelně probíhal i workshop “Datasets, Open Data and Digital Preservation” určený zájemcům o uchovávání datových setů a práci s otevřenými daty. Úvodní část byla ve znamení diskuse, během které se sami účastníci snažili definovat pojem “open data”. Díky tomu, že workshop si zvolilo poměrně rozmanité publikum pocházející z komerčních firem i paměťových a vzdělávacích institucí, se objevilo množství rozdílných názorů na povahu a účel otevřených dat. Obecně však byla zdůrazňována jejich online dostupnost, strojová zpracovatelnost a zejména to, že jejich použití není omezeno z hlediska autorského zákona.
V další části byla věnována pozornost zejména kontrole kvality otevřených dat a vhodným postupům pro jejich tvorbu. V současnosti používaný koncept "5-stars [11]" již není dostačující a řešením se zdá být aktuálně vyvíjený Open Data Certificate [12].
V závěru si účastníci mohli sami vyzkoušet možnost sdílení "datasetů" na platformě GitHub [13], která je sice původně určena a ke kooperativnímu vývoji software, nicméně komunita zabývající se otevřenými daty ji považuje za velmi dobrý nástroj i pro práci s "datasety". Výhodou je zejména možnost kontroly verzí.
Kromě výše uvedených celodenních tutoriálů se bylo možné zúčastnit i půldenních seminářů o Open Linked Data, ontologiích a o metadatech mapujících původ (provenance) digitálních objektů.
Keynotes
Samotnou konferenci zahájil keynote “Darling we need to talk”, který přednesl Gildas Illien z Francouzské národní knihovny. V návaznosti na propojení obou konferencí zdůraznil zejména důležitost spolupráce mezi odborníky na uchovávání digitálních objektů a katalogizátory, kteří objekty popisují. Za důležité považuje zejména vzájemné porozumění mezi oběma disciplínami a v ideálním případě i občasnou výměnu rolí.
Druhý a zároveň zřejmě i nejpoutavější keynote celé konference přednesl na začátku druhého dne Paul Bertone z European Bioinformatics Institute. Téma “ Digital information storage in DNA” sice může znít jako dobrý nápad na sci-fi povídku, ale jedná se o zcela vážně míněný experimentální výzkum, který se soustředí na zapisování a čtení kódovaných informací do a z molekul DNA. Paul Bertone popsal úspěšný pokus, během kterého byly do DNA uloženy textové, obrazové i audio informace. Data se na netradiční médium povedlo nejen zapsat, ale hlavně i úspěšně přečíst.
Tato technologie umožňuje uchovat obsah až z 1 milionu CD-ROMů v DNA o hmotnosti 0,5g. DNA je navíc velice stabilním nosičem informací – její sekvence dokážou bez problémů přežít i po desítky tisíc let. Přednáška poukázala i na skutečnost, že v případě potřeby uložení skutečně velkých objemů dat může být tato technologie ekonomičtější než například uložení na pásky, které se v současnosti využívá nejčastěji, a to přesto, že se jedná o finančně velice nákladný proces.
Třetí keynote se nesl ve znamení projektu Evropské komise Horizon 2020 – The EU Framework Programme for Research and Innovation, který prezentoval koordinátor oblasti “Scientific Data e-Infrastructures” Carlos Morais Pires. Výzvy k jednotlivým sekcím projektů zatím nejsou zveřejněny, je však jasné, že k dispozici budou finanční prostředky pro výzkum a vývoj např. e-infrastruktury pro otevřený přístup, sjednocení výzkumných dat, virtuální výzkumná prostředí, nové profese a zručnosti pro budované e-infrastruktury, sestavování politik či mezinárodní spolupráce.
Nejzajímavější prezentace
Přednášky samotné měly, jak je na iPRESu zvykem, poměrně vysokou úroveň a soustředily se na široké spektrum problémů z oblasti dlouhodobé ochrany digitálních objektů. Některým z témat je pozornost věnována již po delší dobu (např. archivace webu), jiná se naopak do popředí zájmu teprve dostávají.
Jedna ze sekcí byla věnována opět tématu archivace webu. Tessella ve spolupráci s BnF (Národní knihovnou Francie) přednesla příspěvek “Studies on the Scalability of Web Preservation”, ve kterém řešily migraci 1,5 milionu ARC souborů (sklizených webových stránek) do standardu WARC, což představuje asi 200TB dat ve formě cca 50 mil. digitálních objektů. Cílem bylo vyzkoušet, jak striktní migraci (vytváří se konverzní záznamy[2] pro migrované objekty), tak přechodnou (z angl. transitional, kdy se vytváří nový zdroj a metadatový záznam pro migrované soubory a původní obsah se nahrazují přesměřováním HTTP 302). Zjistilo se však, že v současné době neexistuje žádný migrační nástroj, který by dokázal zobrazovat WARC soubory s konverzními záznamy (conversion records). Zajímavé bylo zjištění, že škálovatelnost zpracování je omezena vstupem/výstupem, nikoli rychlosti zpracování (processing speed).
Trochu jiný pohled na archivaci webu nabídl projekt ArchiveReady [14] , který zjišťuje archivovatelnost webových stránek, čímž má sloužit jako podpůrný nástroj pro kurátory webů. Evaluace probíhá takzvaně “on-the-fly”, tedy za chodu, vložením URL odkazu na stránkách ArchiveReady. Nástroj vyhodnocuje přístupnost, kohezi, metadata, chování, dodržování standardů a dle vnitřní metodiky určuje míru archivovatelnosti webu. Například web Univerzity Karlovy v Praze získal 80%.
[15]
Screenshot hodnocení webu cuni.cz na stránkách ArchiveReady
Stále častěji se ukazuje, že iniciativy dlouhodobé ochrany, které ve světě postupně vznikají, např. MetaArchive Cooperative, LuKII, Chronopolis, DuraCloud, UC3 Meritt, the Danish Bit Repository nebo třeba i Internet Archive, COPPUL, iRODS, LOCKSS, DPN a Archivematica, představují vysoce distribuované metodologie, infrastruktury a organizační aparáty. Proto je na místě úprava stávajícího OAIS referenčního rámce pro potřeby distribuované dlouhodobé ochrany (všeobecně známá pod anglickým akronymem DPP - Distributed Digital Preservation). V této oblasti totiž chybí společný terminologický základ a konceptuální rámec. V současné době je již k dispozici tzv. White Paper rámce k veřejnému připomínkování. Samotný rámec by v budoucnu mohl být přílohou OAIS standardu, podobně jako Producer-Archive Interface Methodology Abstract Standard [16] (PAIMAS).
Archivematica, jeden z výše zmiňovaných nástrojů implementace OAIS modelu, překvapil skutečností, že nepřestavuje open-source protějšek dlouhodobé ochrany komerčních SW typu SDB a Rosetta, nýbrž doplněk ke stávajícím repozitářům. Neméně zajímavou sekcí konference iPRES byla sekce “Hodnocení”, kdy klíčovým prvkem systémů a repozitářů pro dlouhodobou ochranu má být koncept důvěry, resp. důvěryhodnosti. Ten lze dostatečně prokázat samo-auditem, externím auditem či v ideálním případě certifikací. Objevil se dokonce názor, že v ideálním případě by měl být každý repozitář do tří let od svého vzniku, resp. zprovoznění, certifikovaný podle ISO 16363 nebo DIN 31644.
Poměrně nestandardní přístup ke dlouhodobé ochraně dat, resp. migraci, představil Jan Hutař z Archives New Zealand. Zde po nějakou dobu fungoval repozitář v systému Fedora jako dočasné úložiště. Od počátku ale bylo jasné, že Fedora nesplňuje požadavky archivu, a proto bylo rozhodnuto, že data budou přesunuta do systému pro dlouhodobou ochranu digitálních dat Rosetta. Největším problémem se ukázala být identifikace formátů a validace a extrakce metadat. Paradoxně nejvíce času nezabrala náprava problémů, ale jejich identifikace.
Evropský projekt APARSEN [17] představil své dosavadní výsledky a záměry do budoucna. APARSEN je snahou o vytvoření virtuálního centra excelence, které by shromaždovalo praktické i teoretické informace týkající se dlouhodobé ochrany. Soustředí se na čtyři základní oblasti výzkumu: důvěryhodnost, udržitelnost, použitelnost a přístup k informacím v digitální podobě. Mezi cíle projektu APARSEN patří mimo jiné i vybudování a rozvoj infrastruktury pro certifikaci repozitářů nebo systematizace vzdělávání v oblasti dlouhodobé ochrany.
Velice zajímavou přednášku „Automatic Preservation Watch using Information Extraction on the Web“ přednesl Luis Faria. Jejím tématem byly možnosti automatizace sběru informací publikovaných na webu, které jsou nějakým způsobem relevantní pro dlouhodobou ochranu konkrétního digitálního objektu. Jako příklad reálné aplikace byl využit případ sběru informací, které vydavatelé časopisů publikují na svých webových stránkách.
Tyto údaje jsou podstatné pro Nizozemskou národní knihovnu, která dlouhodobě ukládá elektronické časopisy a potřebuje znát odpověď na otázku: „Kdo je odpovědný za ten který časopis a jaké jsou podmínky přístupu k němu?“. Odpovědi jsou obvykle dostupné na webových stránkách vydavatelů, ale jejich strojové zpracování komplikuje skutečnost, že jsou v přirozeném jazyce. Navíc se vydavatelská politika poměrně často mění. V rámci experimentu byla provedena extrakce těchto informací a jejich následné vložení do nástroje Scout, který je určen k monitorování informací relevantních pro dlouhodobou ochranu.
DCMI konference se soustředila na otázky možností uchovávání řízených slovníků ve webovém prostředí – například W3C nabízí prostor Community Group a hosting pro sdílení a ukládání řízených slovníků. Představeny byly konkrétní implementace standardu Dublin Core v jednotlivých projektech – příkladem může být přednáška “Designing an Application Profile Using Qualified Dublin Core: A Case Study with Fracture Mechanics Datasets”, která detailně popisovala proces návrhu metadatového profilu pro popis databází z oblasti technických věd. Zdůrazněna byla zejména potřeba respektu ke zvyklostem komunity.
Workshopy
Konference neoficiálně ukončily workshopy. Patřil mezi ně například již tradiční „PREMIS implementation fair“ zaměřený na sdílení zkušeností mezi komunitou implementující standard PREMIS v repozitářích a pracovní skupinou vyvíjející PREMIS. Představeny byly změny, které bude obsahovat chystaná verze 3.0. Bude se zřejmě jednat zejména o rozšíření entity "Digital Object" o informace vztahující se k okolí (Environment) objektu.
Workshop „Open Research Challenges in Digital Preservation“ nastínil 4 okruhy problémů dlouhodobé ochrany, které nabízí možný prostor pro další bádání: emulační strategie, dlouhodobá ochrana jako věda, udržitelné výpočetní systémy a (polo)automatizované hodnocení kvality digitalizovaných obrazových materiálů.
Workshop „Cost of Curation“ byl prezentací projektu 4C [18] zaměřeného na práci s modely nákladů na dlouhodobou ochranu digitálních objektů. Projekt 4C je teprve v začátcích, ale plánuje se stát křižovatkou informací o jednotlivých modelech a jejich relevanci pro jednotlivé zainteresované instituce. Aktuálně se soustředí zejména na hodnocení a porovnání již existujících modelů a na výzkum toho, jak a proč jsou v praxi používány.
Závěrem je možné říci, že letošní iPRES se vydařil po obsahové i organizační stránce. Nezbývá než doufat, že další ročník, který se bude konat v Melbourne bude stejně úspěšný.
- "Keywords databases" využívají, na rozdíl od předmětových databází, dotazů v přirozeném jazyce.
- Konverzní záznamy (conversion records) obsahují alternativní verze obsahu jiných záznamů, které byly vytvořeny jako výsledek archivačního procesu. Obsah tak udržují "životaschopný", pokud již neexistuje originálně uchovaný formát. Příklad konverzního záznamu:
"WARC/0.17
WARC-Type: conversion
WARC-Target-URI: http://www.archive.org/images/logoc.jpg [19]
WARC-Date: 2016-09-19T19:00:40Z
WARC-Record-ID: <urn:uuid:16da6da0-bcdc-49c3-927e-57494593dddd>
WARC-Refers-To: <urn:uuid:92283950-ef2f-4d72-b224-f54c6ec90bb0>
WARC-Block-Digest: sha1:XQMRY75YY42ZWC6JAT6KNXKD37F7MOEK
Content-Type: image/neoimg
Content-Length: 934"
Podrobněji např. zde: http://archive-access.sourceforge.net/warc/warc_file_format-0.9.html [20].