Mezinárodní konference se zabývala otázkou, zda archivovat web komplexně, nebo výběrově
V listopadu 2004 se konala významná událost v knihovnickém světě - konference Digital Archiving and Preservation [4]. Byla to první akce takového rozsahu zaměřená speciálně na problematiku archivace webu. Konferenci uspořádala National Library of Australia [5] (NLA) ve dnech 9. – 11. 11. 2004 ve své budově v hlavním městě Austrálie Canberra a splnila tím svůj závazek v rámci konsorcia International Internet Preservation Consortium [6] (IIPC): zvyšovat povědomí o problematice a iniciativách zaměřených na uchování internetových publikací formou pořádání konferencí, workshopů, kurzů, publikací aj. Vedle konference byly uspořádány ještě další akce – před zahájením konference v pondělí 8. 11. možnost prohlídky knihovny a bližšího seznámení s významnými projekty NLA – PANDORA: Australia’s Web Archive [7] a KINETICA: Australia`s Library Network [8], poskytující přístup k významným australským databázím, včetně národní bibliografie (australský souborný katalog), a dále se třemi sbírkami MusicAustralia [9], PictureAustralia [10] a AustraliaDancing [11]; po ukončení konference, v pátek 12. 11., byl ještě uspořádán Informační den [12] – workshop umožňující v menším okruhu účastníků diskutovat o některých konkrétních problémech souvisejících s archivací webu (zejména z činnosti IIPC – vyvíjené softwarové nástroje).
Konference se zúčastnilo přes 200 odborníků z celého světa, značnou část ovšem tvořili "místní" z Austrálie a také z Nového Zélandu. Mezi nimi byli nejen pracovníci knihoven, ale i archivů a muzeí, jichž se problematika uchování digitálních dokumentů, resp. objektů rovněž týká. Pokud jde o přednášející, sešel se na konferenci skutečný výběr současných VIP v oblasti archivace webu ve světě. Pro alespoň trochu znalé této oblasti uvedu pár jmen jako: Pamela Gatenby, Warwick Cathro, Margaret E. Phillips, Colin Webb (všichni Austrálie), Julien Masane`s (Francie), Hans Liegmann (Německo), Johan Mannerheim (Švédsko), Svein Ame Solbakk (Norsko), Hans Jensen (Nizozemí), ale také ředitelka Internet Archive Michele Kimpton (USA). A díky tomu, že mi australští pořadatelé nabídli grant, mohla jsem se této události zúčastnit i já a dostala jsem se tak do míst, která mi do té doby připadala nedosažitelná.
Celý program konference byl v zásadě zaměřen na otázku, zda a proč archivovat web komplexně nebo výběrově. Na jedné straně zejména Austrálie prosazuje a praktikuje strategii výběrové archivace, která je náročná na intelektuální práci, ovšem umožňuje zpřístupnění všech získaných webových zdrojů uložených v digitálním archivu se souhlasem vydavatele. Na druhé straně zejména severské země a samozřejmě také společnost Internet Archive [13] prosazují automatický sběr "všeho", tj. sběr celého webu podle programovatelných kritérií (doména, formát aj.). Druhý tábor staví proti prvému celkem logicky argument, že nikdo není schopen a nemá právo rozhodovat o tom, co z materiálů publikovaných na webu stojí za trvalé uchování – web nemá hranice a proč nesbírat všechno, když to technicky je možné; "co je na webu dnes, nemusí být zítra". V současné době stojí bohužel zpřístupnění zdrojů uložených do archivu na základě automatického sběru v cestě legislativa upravující autorská práva a povinný výtisk, ovšem archivace se provádí hlavně pro budoucí generace, nikoliv pro současné generace, a lze věřit, že časem se autorské právo vztahující se k internetu upraví tak, aby umožňovalo rovný a svobodný přístup k informacím.
Nejdůležitější informace pro náš projekt zaměřený na archivaci českého webu byly obsahem přednášek týkajících se projektu PANDORA (Margaret Phillips [14]), činnosti konsorcia IIPC (Caroline Wiegandt [15]) a SW nástrojů vyvíjených v rámci spolupráce členů IIPC (Julien Masane`s [16]). Zajímavá byla samozřejmě i řada dalších přednášek týkajících se např. archivačních metadat a formátů či zkušeností s archivací.
V rámci Informačního dne byly zejména prezentovány dosavadní výsledky vývoje nástrojů pro archivaci v členských institucích IIPC:
- vyhledávací robot Heritrix Crawler [17] společnosti Internet Archive (Gordon Mohr)
- nástroj pro vyhledávání v digitálním archivu NWA Toolset [18], vývoj Národní knihovna Norska (Svein Ame Solbakk)
- nástroje pro archivaci deep webu (zdroje, které dosud zůstávaly pro vyhledávače nepřístupné):
- nástroj pro řízení procesu archivace PANDAS [19], vývoj Národní knihovna Austrálie (Paul Koerbin - viz též přednáška [20] na workshopu ECDL, září 2004)
PANDORA/PANDAS – součást integrovaného systému v NLA
Z bohatého programu bych ráda upozornila zejména na informace týkající se australského systému pro archivaci webu PANDORA [7], který byl dosud jakýmsi metodickým vzorem pro naše řešení projektu WebArchiv v České republice. Počtem pracovníků (492, z toho je jen 72 % stálých pracovníků na plný úvazek) se Národní knihovna Austrálie blíží Národní knihovně České republiky. Odbor digitální archivace v NLA je organizačně začleněn v úseku Collections Management (správa fondů), což je největší útvar v NLA (asi čtvrtina všech zaměstnanců). Tento úsek se komplexně zabývá veškerými činnostmi souvisejícími s elektronickými zdroji, a sice ve spolupráci odborů zde začleněných: Digital Archiving, Preservation Services a Digital Collections Management; za dodržování Politiky pro uchování digitálních zdrojů [21] je odpovědný ředitel odboru služeb na ochranu fondů (Preservation Services). Koordinaci prací mezi úseky a výzkum, resp. zavádění výsledků výzkumu a vývoje v knihovně zajišťuje náměstek ředitele pro inovaci.
NLA zaujala pragmatický přístup k problematice správy a ochrany svých digitálních sbírek [22], založený na přesně stanovených zásadách. Klíčová strategie NLA zaměřená na zajištění efektivního řízení digitálních sbírek a jejich ochrany pro účely trvalého přístupu je obsahem projektu Digital Services Project [23]. Tento projekt zahrnuje širokou škálu vývojových činností v oblasti IT a systémovou architekturu [24], které společně podporují celou oblast digitální knihovny v NLA. Tento systém pokrývá všechny klíčové procesy v knihovně – výběr, akvizici, ukládání, zjišťování zdrojů, dodávání, přístup a uchování. Zahrnuje jak digitalizované, tak i původní digitální informační zdroje. Infrastrukturu systému tvoří následující složky:
- Systém pro ukládání a vyhledávání metadat (TeraText software)
- Systém pro ukládání digitálních objektů (DOSS)
- Systém pro správu digitálních sbírek (DCM)
- Systém pro archivaci digitálních zdrojů (PANDAS – PANDORA)
- Digitální sbírky, jednoznačné identifikátory (Persistent Identifier - přidělen každé webové stránce v systému) a systémy pro přístup ke zdrojům v digitálních sbírkách
Pro ukládání obsahu všech digitálních sbírek slouží Digital Objects Storage System (DOSS), jehož vývoj v NLA stál jeden milion australských dolarů. Současná kapacita paměti: pět TB na discích a 40 TB na páskách je nyní využita asi z jedné třetiny. V souladu se zásadami budování systému - trvalý a integrovaný přístup pro všechny druhy dokumentů – jsou uloženy sbírky:
- Digitální sbírka webových zdrojů
- Digitální sbírky digitalizovaných dokumentů (rukopisy, mapy, hudebniny, zvukové záznamy)
Problematice trvalého uchování webových zdrojů domácí provenience (PANDORA) je v NLA věnována obrovská pozornost a patří ke klíčovým rozvojovým aktivitám knihovny v oblasti ochrany knihovních fondů [22]. Archivací australských online publikací se NLA zabývá od roku 1996. Od té doby dosáhla mezinárodního renomé jednak budováním svého digitálního archivu, ale také svým přínosem pro vývoj zásad a postupů v oblasti výběru zdrojů, jejich stahování z webu, katalogizace, ukládání a uchovávání i zpřístupňování. Z iniciativy NLA je budován portál PADI [25] (Preserving Access to Digital Information) zpřístupňující zdroje k ochraně digitálních dokumentů (politika, zprávy o projektech, články z časopisů aj.). NLA má své zástupce pro oblast ochrany digitálních dokumentů činné v mezinárodních institucích, z nichž v současné době zásadní roli hraje konsorcium IIPC [6]. Toto konsorcium má v současné době 12 členů (11 národních knihoven a nezisková organizace Internet Archive) a jeho cílem je:
- umožnit sběr a archivaci bohatého obsahu internetu jako celosvětového souboru informací a zajistit k němu trvalý přístup
- napomáhat vývoji a využití společných nástrojů, technologií a standardů, které umožní tvorbu mezinárodního archivu
- podporovat národní knihovny v jejich úsilí zaměřeném na archivaci a ochranu internetových zdrojů.
V polovině roku 2005 budou do konsorcia IIPC přijímáni noví členové, kteří pomohou v úsilí zajistit kompatibilitu a šetřit "společné" peníze.
Systém pro archivaci australského webu PANDORA je provozován ve spolupráci NLA s dalšími státními a teritoriálními knihovnami, dalšími partnery [26] jsou Australský národní zvukový a filmový archiv (National Screen and Sound Archive), Památník australského válečnictví (Australian War Memorial) a Ústav studií původních obyvatel Austrálie (Australian Institute of Aboriginal and Torres Strait Islander Studies). V NLA je systém vyvíjen, spravován a provozován v samostatném organizačním útvaru na úrovni odboru (Digital Archiving Branch), který má 7 stálých pracovníků zaměstnaných na plný úvazek. Dále se zabývají podporou a vývojem systémů PANDORA/PANDAS pracovníci v úseku informačních technologií (IT Division) a v odboru služeb na ochranu fondů (Preservation Services Branch) se zabývají úkoly spojenými s ochranou obsahu archivu další pracovníci v rozsahu odpovídajícím plnému úvazku 1 člověka.
Jak již bylo zmíněno na začátku článku, strategie archivace v Austrálii je výběrová, tj. sběr zdrojů vybraných na základě stanovených kritérií výběru [27] jako intelektuální činnost. Neprovádí se tedy sběr všech "australských" online publikací a webových stránek, nýbrž každá ze spolupracujících institucí vybírá ty, které považuje za důležité z hlediska dlouhodobého uchování pro výzkumné účely. Obecné zásady pro výběr zdrojů jsou z hlediska obsahu a formy zejména:
- australská doména
- důležité téma o Austrálii
- australský autor
- vládní publikace
- vysokoškolské práce
- časopisy
- materiály z konferencí
- odkazované publikace (z referátových a indexačních služeb)
- komerční publikace s omezením přístupu podle požadavku vydavatele
Pro uložení vybraných zdrojů do archivu a jejich zpřístupnění je uzavírána smlouva (elektronicky) s vydavatelem. Vydavatel může případně požádat o omezení přístupu k jeho publikacím. Všechny dokumenty jsou uchovávány ve třech kopiích (matriční kopie + dvě záložní kopie) a pro přístup slouží "display copy" (pro zobrazení).
Pro stahování dokumentů se v současné době používá v NLA volně dostupný nástroj HTTrack [28]. Pro správu stahování a archivu se používá PANDAS [19], PANDORA Digital Archiving System, vyvinutý v NLA. Tento systém kontroluje celý proces od stažení stránky přes záznam všech údajů (administrativní data), přidělení PI (jednoznačného identifikátoru, kterým je PURL), vytvoření všech druhů kopií a jejich uložení, kontroluje omezení přístupu (v případě omezení přístupu se při kliknutí na link zobrazí upozornění, že zdroj je možné si prohlédnout pouze v knihovně), poskytuje zprávy o provozu. Nemá funkci harvesteru, poskytuje pouze interface k software pro stahování dat (nyní HTTrack, v budoucnu se počítá s využitím programu Heritrix). Pro přístup do databáze národní bibliografie se využívá protokolu Z39.50.
Popis zdrojů se provádí v rámci systému KINETICA, tedy zpracovává se bibliografický záznam ve formátu MARC21 a následně se konvertují metadata do formátu Dublin Core (jednoduchý, příp. podle potřeby zejména u zdrojů státní správy kvalifikovaný). Vyhledávání v systému PANDORA je tedy možné prostřednictvím bibliografické databáze. Přímo v systému lze vyhledávat na základě názvu a předmětu.
Zajímavé statistické údaje o archivovaných datech k 30. 10. 2004:
- 7000 titulů, z toho 150 má vydavatelem omezený přístup;
- přes 14 000 "instancí" (tituly opakovaně sbírané po změně obsahu);
- 7,4 % archivovaných zdrojů už není dostupných na webu;
- 9 vlastníků copyrightu požádalo o odstranění jejich souborů z archivu;
- objem kopií pro zobrazení – 735 GB;
- 4 milióny přístupů do archivu v roce 2003, z toho 53 % uživatelů ze zahraničí, 27 % z Austrálie, zbytek nelze zjistit;
- průměrná doba, po které zmizí dokument z webu – 100 dní.
Snahou konsorcia IIPC je, aby všechny výše uvedené nástroje byly dány k volnému využití do poloviny roku 2005. Budeme jim i sobě tedy k tomu držet palce.
Sborník z konference nebude vydán, zato webová stránka konference [4] bude uložena v archivu PANDORA. Podrobné informace o části konference a workshopu v angličtině jsou publikovány v blogu účastníka konference Axela Brunse [29] (Queensland University of Technology).
[30]
Národní australská knihovna, vlevo Vědecko-technické centrum