Sorry, you need to enable JavaScript to visit this website.

WebArchiv : získávání, archivace a zpřístupnění domácích webových zdrojů

Čas nutný k přečtení
5 minut
Již přečteno

WebArchiv : získávání, archivace a zpřístupnění domácích webových zdrojů

0 comments
Autoři: 

Workshop s názvem WebArchiv : získávání, archivace a zpřístupnění domácích webových zdrojů se jako součást konference Inforum 2004 uskutečnil dne 24.5.2004 v Zasedací místnosti NK ČR. Účastníky nejprve jménem organizačního výboru konference přivítal PhDr. Filip Vojtášek. Poté se ujala slova Mgr. Ludmila Celbová a s dalšími příspěvky vystoupili Markéta Simonová, Petra Kačírková, Ing. Petr Žabička a Ing. Jan Heisler.

Jádrem workshopu se stalo představení současného stavu projektu Webarchiv v širších souvislostech. Bylo zdůrazněna jeho návaznost na činnost tzv. paměťových institucí, k nimž se řadí vedle knihoven a archivů také muzea, galerie a památníky. Tyto paměťové instituce, jejichž úkolem je trvale uchovat kulturní a informační dědictví, čelí společným problémům. K nim patří zejména dlouhodobé uchování dat, migrace na nová média a konverze formátů.

Důvodem archivace webu je obrovský nárůst elektronických zdrojů, který je ovšem doprovázen jejich prchavostí (často v kontrastu k jejich informační hodnotě). Tyto zdroje je potřeba uchovat v rámci národního kulturního dědictví. Archivace webu spočívá v získávání online elektronických zdrojů, jejich uložení, uchování a zpřístupnění (již ne z jejich původního umístění na webu, ale z archivu).

Při vytváření digitálního archivu lze uplatnit v zásadě dvě strategie – jednak vytváření kompletního archivu automatizovaným sběrem elektrických online zdrojů (tzv. harvestingem), jednak vytváření výběrového archivu podle předem stanovených obsahových a formálních kritérií.

Při dlouhodobém uchovávání dat obecně je možno zachovat bitový proud, zachovat původní vzhled/funkčnost nebo zachovat pouze informační obsah daného dokumentu.

V procesu archivace jsou používány softwarové nástroje pro budování archivu, pro zpřístupnění obsahu archivu a v neposlední řadě pro správu archivu. Z dostupných nástrojů byly komentovány zvláště Nedlib Harvester, Heritrix, HTTrack a NWA Toolset.

Počátky archivace webu klademe přibližně do poloviny 90. let, kdy s touto činností začaly v Evropě severské země, mimo Evropu pak zejména Kanada a Austrálie. V roce 2003 bylo z iniciativy BNF založeno International Internet Preservation Consortium, na jehož činnosti se podílí jedenáct národních knihoven a rovněž Internet Archive.

Na workshopu byly ze zahraničních projektů představeny:

  • australská Pandora (Preserving and Accessing Networked Documentary Resources of Australia),
  • švédský Kulturarw3
  • nizozemský E-depot
  • finská EVA (Akvizice a archivování síťových elektronických publikací).

Z mezinárodních projektů se pak kromě již zmiňovaného Internet Archive (založen v roce 1996) a International Internet Preservation Consortium (založeno 2000) jednalo také o The Long Now Foundation. Tato nadace v souladu se svým záměrem skutečně dlouhodobě uchovávat informace – řádově po tisíce let – udává jako rok svého založení 01996, aby rovnou vyřešila problém s číslováním, který nastane roku 10 000.

Česká republika začala s archivací webu v roce 2000. Projekt WebArchiv je výsledkem spolupráce NK ČR, MZK (oficiálně až od roku 2003) a ÚVT MU ČR (externě).

Při jeho tvorbě jsou kombinovány strategie vytváření kompletního a výběrového archivu. Mezi kritéria výběru zdrojů pro WebArchiv patří:

  • místo uložení zdroje (nyní hlavně doména .cz, správné vymezení tzv. národního webu je však obtížné)
  • obsah zdroje (zdroje s vysokou informační hodnotou)
  • typ zdroje (např. seriály a konferenční sborníky)
  • forma zdroje (pouze online zdroje)
  • přístup ke zdroji (pouze volně přístupné zdroje)
  • formát zdroje (zatím zdroje přístupné prostřednictvím protokolu http; zdroje přístupné prostřednictvím protokolu ftp pouze v případě, že je na ně odkázáno z webových stránek)

V březnu 2004 bylo zahájeno třetí kolo celoplošného harvestingu. Celkově bylo doposud sklizeno na 400 GB komprimovaných dat. Početně mezi nimi převládají HTML dokumenty.

V průběhu workshopu bylo několikrát upozorněno na legislativní problémy, s nimiž se tvůrci WebArchivu musejí potýkat. Zatímco zákon o neperiodických publikacích (č. 37/1995 Sb.) zahrnuje i rozmnoženiny děl (nosič není zmíněn), tzv. tiskový zákon (č. 46/2000 Sb.) se týká pouze tištěných publikací. Realizátoři projektu WebArchiv proto usilují o jeho novelizaci. Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat.

Tato legislativní situace je řešena uzavíráním smluv s jednotlivými vydavateli. Ti se mohou rozhodnout, zda poskytnou souhlas se zpřístupněním daného online elektronického zdroje v rámci archivu volně na internetu, nebo výhradně lokálně. Vydavatel se také podepsáním smlouvy zavazuje vytvářet metadata podle standardu Dublin Core a vkládat je do hlavičky svých dokumentů. Zatím je uzavřeno 16 smluv pro přístup volně na internetu a 4 smlouvy pro přístup lokální.

Zatím je cca sto dokumentů z WebArchivu dostupných v bázi Web 01 (viz báze NK ČR). V případě souhlasu vydavatele je pro uživatele v rámci OPACu zpřístupněn také link přímo do WebArchivu, nejenom odkaz na příslušnou webovou stránku (viz např. časopis Ikaros).

Na národní úrovni spolupracují realizátoři projektu WebArchiv s MI ČR, které má mj. za úkol archivovat dokumenty veřejné správy s ukončenou platností, a s národní agenturou ISSN. Zde konkrétně spolupráce probíhá tak, že při přihlašování nového online pokračujícího zdroje je ve formuláři zahrnuta otázka, zda vydavatel souhlasí s uložením zdroje v digitálním archivu.

V závěru workshopu představil Ing. Jan Heisler z Atestačního střediska ISVS návrh standardu ISVS (informační systémy veřejné správy) pro dlouhodobé uchovávání elektronických dokumentů. Návrh vznikl ve spolupráci se Státním ústředním archivem, MI ČR a MV ČR. V prosinci loňského roku byl návrh představen na semináři Archivy, knihovny, muzea v digitálním věku a rovněž předán na MI ČR. Do začátku prázdnin by měl být zveřejněn na stránkách MI ČR a předložen k veřejné diskusi.

Workshop uzavřela diskuse, v níž byly dále objasněny některé otázky týkající se báze Web 01, hovořilo se rovněž o možnostech vazeb WebArchivu na již existující archivy v rámci webových stránek jednotlivých zdrojů či o problematice spolupráce s vysokými školami.

(ls)

Hodnocení: 
Zatím žádné hodnocení
IKAROS, redakce. WebArchiv : získávání, archivace a zpřístupnění domácích webových zdrojů. Ikaros [online]. 2004, ročník 8, číslo 5/2 [cit. 2019-08-19]. urn:nbn:cz:ik-11559. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/11559

automaticky generované reklamy