Sorry, you need to enable JavaScript to visit this website.

Zpráva z konference PASIG 2016

Čas nutný k přečtení
8 minut
Již přečteno

Zpráva z konference PASIG 2016

0 comments
Anglicky
English title: 
Tapes will survive: A report from the 2016 PASIG Conference
English abstract: 
Practical topics of the 2016 PASIG conference in Prague attracted 150 digital archiving professionals from 29 countries, mainly universities and libraries. Workshops were followed by reports on start-up projects or thoughts about the future of archiving as well as pointing out relations between the profession of the archivist and recent social problems of the world.

Konferenci PASIG pořádá dvakrát ročně sdružení Preservation and Archiving Special Interest Group už od roku 2008. Letos se konference PASIG konala od 9. do 11. března v prostorách Národní technické knihovny v Praze a zúčastnilo se jí více než 150 odborníků z oblasti digitální archivace z 29 zemí. Z České republiky se zúčastnilo asi 20 zástupců především českých knihoven a univerzit. Vedle iPresu a Archivingu je konference PASIG tím nejzajímavějším, co se v oblasti dlouhodobé archivace digitálních dat děje. PASIG není vyloženě akademicky zaměřená konference, na rozdíl od iPresu zde bývá více prezentací firem a projektů ryze praktického charakteru. Řada prezentací tak byla více technicky zaměřená.

Konference PASIG 2016 se konala v Ballingově sále NTK
Konference PASIG 2016 se konala v Ballingově sále NTK

Setkání zahájily dva paralelní workshopy. První byl zaměřen na úvod do oblasti digitální archivace a druhý se věnoval nástroji na validaci formátu PDF/A – VeraPDF. Jedná se o nástroj aktuálně vyvíjený v rámci EU projektu PREFORMA, v němž je také vytvářen standard archivní verze formátu TIFF (TIFF/A) a nástroj MediaConch určený k validaci audiovizuálních souborů. VeraPDF je open source knihovnou, určenou nejen k validaci souborů ve formátu PDF/A, ale i k ověření profilů PDF/A vycházejících z politiky jednotlivých institucí. Aktuálně je zveřejněna verze 0.10 umožňující validovat objekty ve formátu PDF/A 1b. VeraPDF je dostupná na Githubu. Nástroj také umí z objektů v PDF/A také extrahovat technická metadata. Součástí projektu VeraPDF je také vytvoření korpusu pro PDF/A, který pro každou vlastnost popsanou v ISO standardu poskytuje jednoznačné testovací objekty. Nástroj VeraPDF disponuje rozhraním pro příkazovou řádku, GUI a REST API. Produkční verze by měla být zveřejněna v roce 2017.

Odpolední část prvního dne byla věnována hardwaru pro dlouhodobé ukládání. PASIG vznikl původně jako pracovní skupina uživatelů technologií firmy Oracle a část tohoto bloku byla prezentována experty z této firmy. Velkým tématem této sekce (a obecně i letošního setkání PASIG) byla cloudová a hybridní úložiště. Byl představen například formát AXF (Archives eXchange Format), což je standard pro výměnný archivační balíček nezávislý na použité ukládací technologii. AXF obsahuje kromě vlastních ochraňovaných dat a metadat také informace, které umožňují použití obsahu AXF objektu nezávisle na technologii ukládání, file systému apod. Zajímavá byla prezentace Matthewa Addise ze společnosti Arkivum, který se zbýval nejen technickými otázkami cloudového uložení dat, ale zdůraznil i důležitost organizace a řízení, a to přímo na konkrétních případových studiích. Arkivum je start-up Southamptonské univerzity, který poskytuje služby bitové archivace především univerzitám ve Velké Británii. Jejich standardní smlouva obsahuje závazek uchování bitů po dobu 25 let. Ukládají dvě kopie dat near-line a jednu kopii offline. Proti vlastní neschopnosti dostát svým smluvním závazkům po takto dlouhou dobu je Arkivum pojištěno a instituce využívající jejich služby mají zaručeno, že v případě úpadku firmy Arkivum, nebo ukončení činnosti z jiného důvodu, vždy dostanou kompletní offline kopii svých dat.

Páskové systémy mají budoucnost stále světlou

Výraznou myšlenkou, která v rámci sekce zazněla, bylo tvrzení, že lidská chyba představuje pro digitální data větší nebezpečí než selhání techniky. Chybovost jednotlivých ukládacích médií se pochybuje ve velmi malých číslech. Ovšem pravděpodobnost lidského selhání – chybná manipulace s médii, smazání nebo přesun dat omylem apod. – je mnohem větší. Podnětná byla také debata o cenové a bezpečnostní politice jednotlivých poskytovatelů cloudových ukládacích služeb. Cenové modely poskytovatelů cloudového ukládání často skrývají rizika obrovských nákladů ve chvíli, kdy byste jako uživatel služby uložení dat ve výpočetním oblaku chtěli přistupovat ke svým datům častěji resp. ve větším rozsahu například během jednoho roku. Cenové modely výrazně sankcionují častější nebo rozsáhlejší přístup.

Podle expertů na vývoj trhu s hardwarem pro ukládání dat z Oraclu se nedá předpokládat brzký konec páskových ukládacích systémů. Navzdory tomu, že se stále objevují nové technologie ukládání dat, v poslední době především optická média, 5D storage apod., jsou pásky stále nejlevnější. Predikce neukazují, že by disky mohly v dohledné době zlevnit natolik, aby páskám cenově konkurovaly.

Z dlouhodobého hlediska představuje riziko koncentrace výroby médií do několika málo továren na světě. Pásková média dnes vyrábí snad jen dvě továrny, a na PASIGU se také vzpomínalo na povodně v Thajsku, které způsobily cenový otřes trhu s disky.

Dopoledne druhého dne bylo věnováno sdílení praktických zkušeností a případovým studiím. Zazněl zde například příspěvek o katarské Národní knihovně nebo příspěvek o privátních sítích LOCKSS, který jeho autor David Rosenthal vzápětí uveřejnil i na svém blogu (Evolving the LOCKSS Technology).

Zajímavá byla i prezentace Carla Granta o rozsáhlé výstavě Galileova díla na Oklahomské univerzitě, díky které knihovna univerzity identifikovala nové potřeby v oblasti digitální archivace – například nutnost archivovat virtuální realitu nebo počítačové hry. Prezentován byl také u nás velmi sledovaný projektu finského CSC, který je postaven na vlastním vývoji služeb pro dlouhodobou archivaci pro knihovny a další kulturní instituce.

Projekt CSC využívá pro budování centrálního portálu knihoven open source systém VuFind. V archivační části se zvažovalo použití open source systému Archivematica, jenž byl také testován v několika knihovnách a projektech u nás. Od použití Archivematiky Finové nakonec upustili a řešení si naprogramovali sami. Jejich projekt národní infrastruktury pro archivaci v CSC řeší celkem zhruba 10 lidí, z toho čtyři programátoři a tři systémoví analytici. Používají komerční objekt storage odpovídající standardu POSIX (LTFS) od IMB a Oraclu, ale jinak je jejich řešení postaveno výhradně na komponentech dostupných pod otevřenými licencemi (pracují v pythonu, používají OS nástroje pro zpracování formátů – např. GlusterFS, MongoDB, Keepalive, CentOS, Spacewalk, Opsview a Nagios)

Souvislosti: humanitární krize a digitální archivace

Dopolední blok završily kratičké lightning talks otevřené všem účastníkům. Výrazný dojem zanechala zejména Patricia Sleeman, která ze své pozice archivářky Úřadu Vysokého komisaře Organizace spojených národů pro uprchlíky, mluvila o důležitosti digitální archivace informací získaných v rámci zvládání humanitární krize.

Odpolední program byl zaměřen na nejnovější metody, technologie a také problémy, které se v oblasti digitální archivace objevují. Thomas Ledoux z Francouzské národní knihovny uvedl zajímavou prezentaci o digitalizaci a zejména následné archivaci 3D objektů, konkrétně glóbů. Ledoux zdůraznil zejména to, že tým zodpovědný za dlouhodobé ukládání byl přítomen již při samotné digitalizaci a archivaci, použité metody a technologie byly přizpůsobeny potřebám dlouhodobé archivace. Na konferenci Archivy, knihovny a muzea v digitálním světě opakovaně slýcháme prezentace o podobných projektech v České republice a na Slovensku a v porovnání s francouzskou knihovnou rozhodně nejsme v digitalizaci mapových děl a glóbů nijak pozadu.

Archivací 3D objektů se zabývala i prezentace Uweho HelberaT-Systems. Mluvil o nutnosti dlouhodobého ukládání průmyslových modelů ve formátu CAD. 3D modelování se využívá zejména v leteckém, stavebním a automobilovém průmyslu, kde je nezbytně nutné zajistit dlouhodobou a zároveň okamžitou použitelnost tohoto druhu dokumentace. Řešením je migrace z produkčního formátu do archivačního okamžitě po vzniku objektu. Uživatel tedy pracuje přímo s archivačním formátem, který převádí každou křivku 3D modelu do textové podoby. Tímto formátem je STEP (Standard for the Exchange of Product model data – známý jako standard LOTAR) vycházející z normy ISO 10303, který je také využíván zajištění interoperability mezi CAD systémy.

Matthias Hemmje z Univerzity v Hagenu prezentoval návrh možného systému pro tvorbu plánů správy dat (data management plan). Podobné plány jsou v současnosti již požadovanou částí podávaných výzkumných projektů, nicméně navrhovaný systém by jejich tvorbu výrazně zautomatizoval. Hemmje dokonce navrhoval i to, že by na základě plánu mohl být rovnou automatizovaně tvořen vstupní informační balíček pro archivační systém.

Zbytek dne pak patřil zástupcům dodavatelských firem – Ex Libris, Oracle, Arkivum, Preservica a Libnova. Vedle zavedených dodavatelů systémů pro dlouhodobou archivaci byla mezi sponzory i španělská firma Libnova, která svá řešení zatím nabízela jen na domácím trhu.

Konferenční raut v Obecním době (Grégrův sál). Foto: Michal Růžička.
Konferenční raut v Obecním době na konci druhého dne (Grégrův sál). Foto: Michal Růžička.

Nové nástroje, metadata a revize

Páteční program se skládal zejména z informací o aktuálním stavu probíhajících projektů veřejných institucí nebo projektů financovaných z veřejných zdrojů. Rob Baxter z University of Edinburgh informoval o projektu evropské datové infrastruktury EUDAT. Podle jeho slov je jedním z nejzávažnějších problémů, se kterými se potýkají, rozmanitost metadatových formátů využívaných v této oblasti.

Luis FaríaKEEP Solutions informoval o nejnovějším vývoji v projektu E-ARK zaměřeném na digitální archivnictví a o nástroji Database Preservation Toolkit, který konvertuje databáze do formátu SIARD. SIARD byl vyvinut švýcarskými archivy a je určen pro dlouhodobou archivaci relačních databází. V projektu vzniká verze 2 standardu SIARD. Faría také oznámil, že v létě bude dostupná nová verze open source systému pro dlouhodobou archivaci RODA 2.0. K dispozici bude i nová verze balíčkovače Roda-in, který vytváří archivní informační balíčky pro systém RODA z lokálních dat.

Status reporty přednesli zástupci klíčových britských institucí v oblasti dlouhodobé archivace – DPC (Digital Preservation Coalition) a OPF. OPF převzala v loňském roce správu SW knihovny JHOVE, která je globálně jedním z nejpoužívanějších validátorů formátů a bude ho dále rozvíjet a podporovat. Představeny byly projekty PERICLES nebo PERSIST – projekt UNESCO, jehož cílem by měla být dlouhodobá archivace softwaru. Dále Neil Jefferies mluvil o vývoji repozitáře FEDORA, byl představen ambiciózní americký projekt DPN, jehož cílem je propojení dlouhodobých repozitářů po celém území Spojených států a replikace dat mezi jednotlivými lokalitami.

Barbara Sierman, která se dlouhodobou archivací zabývá již dvě desítky let v Nizozemské královské knihovně, informovala o připravované revizi nejdůležitějších standardů v oblasti dlouhodobé archivace – ISO 14721 tzv. OAIS. Minulá revize poučila komunitu zabývající se dlouhodobou archivací, že pro prosazení změn standardu je třeba dobře pochopit mechanismy ISO. Svoje názory na to, kam by měl standard OAIS směřovat, může každý vyjádřit na komunitním portálu. K prosazení změn textu nové verze ISO standardu je ale třeba postupovat přes Úřad pro technickou normalizaci, metrologii a státní zkušebnictví.

V jednom z posledních příspěvků byl krátce představen projekt NAKI II nazvaný ARCLib, který řeší KNAV, MUNI a MZK. Projekt je na úplném začátku a jeho cílem je vytvoření komplexního open source systému pro dlouhodobou archivaci především pro knihovní sbírky.

Rostoucí komplexita a jiné problémy

Závěrečná volná diskuze z pléna přinesla několik zajímavých témat. Diskutovalo se o problému růstu komplexity a dopadů rostoucí složitosti systémů na naši schopnost data dlouhodobě uchovávat. Zajímavá byla také debata o tom, jestli by nemělo větší smysl se víc soustředit na pozvednutí kvality ukládání a ochrany dat v malých institucích než investovat do certifikace několika centrálních úložišť…

Konference podobného významu jako je PASIG v České republice v oblasti dlouhodobé archivace dosud neproběhla. Rostoucí české komunitě zájemců o oblast dlouhodobé archivace tak nezbývá než poděkovat Josefu Dzivákovi, který se o konání konference v Praze zasloužil nejvíc.

Hodnocení: 
Průměr: 4.8 (hlasů: 4)
MELICHAR, Marek a PAVLÁSKOVÁ, Eliška. Zpráva z konference PASIG 2016. Ikaros [online]. 2016, ročník 20, číslo 3 [cit. 2024-11-25]. urn:nbn:cz:ik-17711. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/17711

automaticky generované reklamy