Domácí elektronické online zdroje zpřístupněny díky projektu WebArchiv
U příležitosti zpřístupnění části digitálního archivu WebArchiv [4] uspořádalo oddělení elektronických online zdrojů Národní knihovny ČR v úterý 6. prosince 2005 informační setkání, na kterém vystoupili pracovníci tohoto oddělení a na které byli pozváni zástupci knihoven, vydavatelů a sdělovacích prostředků. Cílem setkání bylo především seznámit s dosavadním vývojem a perspektivami projektu WebArchiv, nastínit podmínky spolupráce s vydavateli elektronických online zdrojů a představit stávající technické zázemí projektu.
Informační setkání se konalo pod záštitou generálního ředitele NK ČR Vlastimila Ježka, který setkání zahájil přivítáním účastníků a zdůrazněním potřeby a důležitosti archivace a zpřístupňování elektronických online zdrojů (EOZ), a to i navzdory stávající problematické legislativě v ČR.
Charakteristika projektu WebArchiv
Představení projektu WebArchiv (okolnosti vzniku, smysl, cíl, řešitelé aj.) se ujala Ludmila Celbová, vedoucí oddělení elektronických online zdrojů NK ČR. I když tomuto projektu již byly v Ikaru věnovány samostatné texty (viz odkazy na související články), zopakujme základní fakta: WebArchiv vznikl v rámci programového projektu výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet", který byl řešen od roku 2000 v Národní knihovně ČR za částečné grantové podpory Ministerstva kultury ČR, ve spolupráci s Moravskou zemskou knihovnou v Brně a Ústavem výpočetní techniky Masarykovy univerzity v Brně. (Pojmenování "WebArchiv" vzniklo až v průběhu řešení projektu.) Přestože podmínky pro projekt WebArchiv nejsou jednoduché (z důvodů finančních, personálních, ale také legislativních – viz dále), daří se jej stále rozvíjet a převádět z počátečního stádia průzkumu do praktické roviny. Podstatou projektu WebArchiv je získávání, archivace a zpřístupnění domácích webových zdrojů, a to nejen pro budoucí generace, ale, jak zdůraznila ve svém vystoupení L. Celbová, už také pro nás v současnosti, jelikož životnost webových zdrojů přístupných online, i těch důležitých a významných, není nekonečná. Příkladem mohou být různá zpravodajství z povodní 2002, zpravodajství z olympijských her, aktuálně třeba česká mutace webových stránek stanice BBC, která v ČR končí své rozhlasové vysílání a oznámila také brzký zánik webové prezentace v češtině. Pokud však tyto zdroje budou archivovány a uživatelům bude do archivu umožněn přístup, nebude zánik těchto online přístupných zdrojů tak velkou ztrátou.
Problém legislativy
Český národní projekt WebArchiv se těší velkému uznání v mezinárodním měřítku. Inspiroval se obdobnými projekty ve Švédsku (Kulturarw3 [5]), Finsku (EVA [6]), Dánsku (Netarchive.dk [7]) či Austrálii (Pandora [8]).
Ve všech projektech zaměřených na archivaci webu jsou vždy řešeny tři aspekty:
- aspekty technické – aplikace a rozvoj HW i SW, rozšiřování kapacity paměťových médií;
- aspekty knihovnické – výběr zdrojů, popis (aplikace formátů typu MARC, Dublin Core), registrace v ČNB;
- aspekty legislativní (povinný výtisk, autorské právo).
Právě legislativní otázky spojené s povinným výtiskem a autorským právem jsou v současnosti bariérou v rozvoji projektu WebArchiv, a to pokud jde o možnosti získávat zdroje a zpřístupňovat je z archivu široké veřejnosti. Národní knihovna ČR v současnosti usiluje o novelizaci zákonů o povinném výtisku (tj. zákon č. 37/1995 Sb. o neperiodických publikacích a tzv. tiskový zákon č. 46/2000 Sb.) a autorského zákona č. 21/2000 Sb. tak, aby v zákonech bylo zakotveno právo knihoven na povinný výtisk elektronických dokumentů, resp. právo zpřístupňovat rozmnoženiny děl uložené v archivu.
Způsob archivace zdrojů
Na získávání zdrojů do WebArchivu je aplikován dvojí přístup (podobně jako třeba v dánském projektu):
- výběrová archivace – intelektuální práce, kdy se získávají a archivují jen dokumenty vybrané podle určitých kritérií (viz dále);
- plošná archivace – automatický proces (tzv. harvesting), kdy se sklízí a archivuje určitá část webu, např. celá národní doména (u nás doména .cz); v rámci projektu WebArchiv byly dosud provedeny tři celoplošné sklizně různého rozsahu (v letech 2001, 2002, 2004).
Ačkoliv v řadě zemí využívají jen jeden, nebo druhý z uvedených přístupů, řešitelé projektu WebArchiv přistoupili k alternativě kombinace obou přístupů, které se vzájemně doplňují a umožňují vytvořit ucelený archiv webových zdrojů s jistou přidanou hodnotou intelektuální práce.
Spolupráce paměťových institucí
Nositelem projektu WebArchiv je sice Národní knihovna ČR, avšak ani tato oblast odborné činnosti knihoven se neobejde bez spolupráce s dalšími paměťovými institucemi (knihovnami, archivy, muzei a galeriemi) řešícími stejné problémy – dlouhodobé uchování dat, migraci na nová média, konverzi formátů. Nejdůležitější roli v této spolupráci by měly hrát další depozitní knihovny v ČR, vedle Národní knihovny jakožto instituce zodpovědné za uchovávání národního kulturního a informačního dědictví. Spolupráce by se měla týkat zejména vyhledávání významných online zdrojů, komunikace s vydavateli těchto zdrojů, popisu (katalogizaci) zdrojů a obecné standardizaci postupů v činnostech projektu.
Spolupráce s vydavateli
V důsledku stávajících legislativních překážek řešitelé projektu WebArchiv přistoupili k uzavírání smlouvy s vydavateli elektronických online zdrojů, podle které vydavatel poskytne Národní knihovně ČR svůj zdroj zdarma a souhlasí s jeho uložením v archivu a zpřístupněním koncovým uživatelům. Na základě smlouvy je vydavateli také doporučeno, aby vložil metadata vytvořená knihovnou do hlavičky zdrojového kódu hlavní stránky svého webového zdroje.
Právě tyto zdroje, na které je s jejich vydavateli uzavřena smlouva, může Národní knihovna ČR za stávajících legislativních podmínek online zpřístupňovat koncovým uživatelům ze svého digitálního archivu, tj. ke zdrojům má přístup kdokoliv a odkudkoliv v prostředí internetu.
Na informačním setkání v Národní knihovně popsal spolupráci s dodavateli Jan Hutař. V úvodu uvedl typologii vydavatelů, se kterými řešitelé projektu WebArchiv mají zájem spolupracovat:
1. "klasické" vydavatelské firmy vydávající nejen tištěné, ale i online zdroje;
2. jednotlivci vytvářející svůj informačně hodnotný a cenný web;
3. firmy vydávající pouze online zdroje.
Vzhledem k obrovskému množství webových zdrojů a jejich rozdílné kvalitě je třeba při intelektuálním výběru zdrojů do archivu uplatňovat určitá kritéria tak, aby byly uchovány jen skutečně hodnotné dokumenty významné pro národní kulturní dědictví. V projektu WebArchiv se aplikují tato kritéria:
- obsah – odborné, umělecké a zpravodajsko-publicistické zaměření;
- typ zdroje – seriály, monografie, konferenční příspěvky, zprávy, akademické práce aj.
- původ – zdroje, které jsou originálně zpřístupněné na webu;
- přístup – volně přístupné webové zdroje, které lze považovat za samostatné publikační jednotky;
- formát – formáty, které jsou interpretovány běžnými webovými prohlížeči bez nutnosti instalace plug-inu (tyto formáty se mohou v průběhu času měnit);
- uložení – doména .cz, ale i jiné domény, pokud jsou registrovány českou fyzickou nebo právnickou osobou nebo se k ČR vztahují;
- komunikační protokoly – protokoly http, ftp.
Jak proces komunikace/spolupráce s vydavatelem probíhá? Pracovníci oddělení elektronických online zdrojů zjistí existenci relevantního webového zdroje, který splňuje stanovená kritéria, a získají e-mailový kontakt na vydavatele tohoto zdroje (v tomto směru je významná spolupráce s českou agenturou ISSN). Prostřednictvím e-mailu pak k vydavateli putuje první oslovení s výzvou ke spolupráci, vč. vzoru smlouvy k podpisu. Pokud vydavatel zareaguje kladně a do Národní knihovny zašle smlouvu podepsanou, informace o tom jsou zaevidovány v SQL bázi v NK ČR, jejíž pracovníci dále vytvoří katalogizační záznam do báze WEB a vytvoří pro zdroj metadatový záznam dle standardu Dublin Core. Pokud vydavatel na první e-mail nereaguje, obdrží po určité době druhý e-mail. Je-li i ten bez reakce, pracovníci oddělení EOZ považují proces navázání spolupráce s takovým vydavatelem za ukončený.
V rámci projektu WebArchiv bylo dosud osloveno 214 vydavatelů, z toho
- 29 % vydavatelů podepsalo smlouvu;
- s 12 % vydavatelů probíhá jednání;
- 21 % vydavatelů spolupráci odmítlo;
- 38 % vydavatelů na oslovení nereagovalo.
Popis zdrojů v projektu WebArchiv
V dalším příspěvku informovala Lenka Jelínková o dvou způsobech popisu elektronických online zdrojů v rámci projektu WebArchiv:
1. metadatový popis (tvorba metadat dle standardu Dublin Core);
2. katalogizace (tvorba katalogizačních záznamů dle mezinárodně platných pravidel – AACR2, ISBD, MARC 21).
Pro tvorbu metadat Dublin Core je využíván generátor vytvořený v rámci projektu Nordic Metadata Project, který je také přístupný [9] na webových stránkách WebArchivu.
Pokud jde o katalogizaci, v souboru bází Národní knihovny ČR je pro elektronické online zdroje vyčleněna samostatná báze WEB, která sice momentálně není součástí centrálního katalogu NK ČR (báze NKC), tento nedostatek by však měl být odstraněn počátkem roku 2006 s očekávanou novou verzí systému Aleph. Záznamy z báze WEB, kterých je v současnosti asi 250, jsou taktéž součástí České národní bibliografie. Specifikem těchto záznamů je odkaz na plný text popisovaného zdroje, a to jak odkaz na primární zdroj dostupný online, tak (v blízké době) na archivovanou kopii zdroje uloženou ve WebArchivu.
Technické podmínky
V závěru informačního setkání vystoupil Petr Žabička z Moravské zemské knihovny v Brně s informacemi týkajícími se technické infrastruktury projektu WebArchiv. Vedle parametrů hardwarového vybavení představil softwarové nástroje používané pro "sklízení" webu, archivaci a zpřístupnění zdrojů či vyhledávání v archivu. V případě většiny používaných SW produktů se jedná o volně dostupné "open source" produkty, ať už jsou to nástroje obecně použitelné (Apache, MySQL, TikiWiki, Nutch a další), produkty vyvíjené speciálně pro účely archivace a zpřístupnění webových zdrojů knihovnami (Heritrix, NutchWAX, WERA), nebo produkty vyvíjené resp. lokalizované vlastními silami.
Pro "sklízení" webových zdrojů v rámci projektu WebArchiv se v současnosti používá systém Heritrix, který byl vyvinut v rámci spolupráce Internet Archive [10] s národními knihovnami severských zemí v rámci konsorcia IIPC (International Internet Preservation Consortium). Jedná se o robot, který postupně prochází webové stránky, k čemuž využívá uvedené odkazy na další webové stránky. Uživatel má možnost nastavit pro Heritrix různé filtry, podle kterých se mají stránky stahovat. Stažená data i technická metadata Heritrix ukládá do archivních souborů formátu .arc. Po zatím třech provedených celoplošných sklizních domény .cz (z technických důvodů většinou neúplných) je v archivu uloženo 26 milionů souborů o celkové velikosti zhruba 2 TB, což představuje již 50 % zaplněného prostoru na diskovém poli, které je pro WebArchiv k dispozici. (V budoucnosti by se měla tato data stát součástí plánované národní digitální knihovny a tím by měly řešitelům projektu WebArchiv odpadnout starosti s nedostatkem místa pro ukládání dat z webu.)
Data získaná díky nástroji Heritrix jsou ukládána do archivu a plnotextově indexována; údaje o všech souborech v archivu jsou ukládány do speciální databáze. Pro zpřístupnění obsahu WebArchivu, resp. pro uživatelské ovládání archivu bude použit nástroj WERA (Web Archive Access), převzatý taktéž od konsorcia IIPC. Tento nástroj mj. poskytuje uživatelsky jistě zajímavý ucelený přehled různých časových verzí archivovaného zdroje. Fulltextové vyhledávání v rámci archivu umožní produkt NutchWAX (Nutch – Web Archive Extension).
Zpřístupnění digitálního archivu WebArchiv
Jak jsme již uvedli výše, zpřístupnění digitálního archivu (vč. možnosti plnotextového vyhledávání) se zatím týká jen zdrojů, s jejichž vydavateli má NK ČR uzavřenou smlouvu, přičemž koncový uživatel může tyto zdroje využívat odkudkoliv v prostředí internetu. Novela autorského zákona, jejíž schválení v parlamentu ČR se předpokládá v polovině roku 2006, by měla umožnit zpřístupnění celého archivu, ovšem pouze z určených terminálů v budově NK ČR, eventuálně v budovách dalších depozitních knihoven. Doufejme, že stávající legislativní bariéry se podaří brzy prolomit a NK ČR (potažmo i další knihovny) bude moci zpřístupnit budovaný digitální archiv kompletně.