Informace o projektu registrace domácích internetových zdrojů nově na serveru WebArchiv
Na letošním semináři Automatizace knihovnických procesů, pořádaném v Liberci ve dnech 24. - 25. dubna t. r. (v tomto čísle naleznete samostatný příspěvek informující o průběhu tohoto semináře - pozn. red.), představili zástupci Národní knihovny ČR poprvé na veřejném fóru výsledky dosavadního řešení projektu Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet (bližší informace viz článek Elektronické zdroje publikované v síti Internet jako součást České národní bibliografie, uveřejněný v časopise Ikaros č. 6/2000). Vzhledem k tomu, že přednesené informace o tomto pilotním projektu měly značný ohlas nejen u účastníků z českých knihoven a dalších institucí, ale i u účastníků ze Slovenska, rádi bychom také touto cestou upozornili na prezentaci výsledků projektu, pro nějž řešitelé zvolili zkrácený název WebArchiv (který také ztvárnili do podoby loga). Pro prezentaci výsledků a dalších informací týkajících se projektu byly připraveny a v těchto dnech zpřístupněny samostatné webové stránky na adrese http://webarchiv.nkp.cz (viz též závěr tohoto článku).
Tento dvouletý pilotní projekt, řešený v rámci programových projektů výzkumu a vývoje Ministerstva kultury ČR, je zaměřen na komplexní problematiku registrace, konzervace a zpřístupnění elektronických zdrojů (zejména zdrojů dostupných online v síti Internet) jako součásti České národní bibliografie. Současně je třeba zajistit, aby se tato část národní publikační produkce, která je svým nehmotným charakterem zásadně odlišná od veškerých ostatních druhů dokumentů, stala součástí kulturního dědictví, které bude trvale přístupné i pro budoucí uživatele, a také integrovanou součástí vznikajících digitálních knihoven. Cílem pilotního projektu je provést analýzu možností řešení, zejména na základě zkušeností ze zahraničních a mezinárodních projektů, a připravit podklady pro přípravu optimálního provozního zpracování elektronických zdrojů. Řešení projektu představuje aspekty knihovnické, legislativní a technické.
K aspektům knihovnickým náleží hlavně stanovení kritérií výběru dokumentů pro národní bibliografii a konzervaci a zpracování metadat sloužících pro vyhledávání (UNIMARC, Dublin Core) - viz článek Katalogizace elektronických zdrojů na Internetu: proč, co, jak?, uveřejněný v časopise Ikaros č. 2/2001.
Aspekty legislativní úzce souvisejí s aspekty knihovnickými: K tomu, aby depozitní knihovna mohla získávat dokumenty pro konzervační fond (tj. digitální archiv), musí mít souhlas vydavatele - to znamená, že buď musí uzavřít dohodu s příslušnými vydavateli, nebo (tak jako u jiných druhů dokumentů) musí být oprávnění k získávání elektronických zdrojů zabezpečeno i legislativně, tj. zákonem o povinném výtisku monografických i seriálových dokumentů (viz článek Povinný výtisk elektronických publikací, zejména vzdálených elektronických zdrojů, uveřejněný v časopise Ikaros č. 10/2000). Při zpřístupňování archivovaných elektronických zdrojů je třeba dbát na dodržování autorských práv.
Technické aspekty se týkají zejména vytvoření nástrojů pro usnadnění a zajištění jednotnosti zápisu metadat, pro zajištění autenticity dokumentů, pro vyhledávání, stahování a archivaci dokumentů na archivním serveru, pro zajištění trvalé dostupnosti archivovaných dokumentů vzhledem k vývoji digitálních technologií. K technickým aspektům byla publikována řada příspěvků - viz cit. [8], [9], [11].
Po prvním roce řešení projektu, kdy byly provedeny analýzy stavu řešení ve světě, jsme se zaměřili hlavně na metody vyvinuté v severských zemích. Tento postup byl celkem pochopitelný, protože svým rozsahem je web např. ve Finsku srovnatelný se stavem u nás (prozatím je jako domácí produkce dokumentů na webu uvažována pouze národní doména, tj. u nás .cz). Z projektů, z nichž zejména vycházíme, bych ráda jmenovala alespoň následující:
- EVA - Acquisition and Archiving of Electronic Network Publications (Finsko),
- Nordic Metadata I, II (severské země)
- NEDLIB - Networked European Deposit Library (některé ze zemí EU)
a další projekty.
Řešení pilotního projektu představuje principiálně testování dvou metod, které by v optimálním případě měly být aplikovány paralelně s cílem umožnit dlouhodobé uchování a využívání internetových zdrojů:
- shromažďování, registrace a archivace vybraných zdrojů podle stanovených kritérií pro účely ČNB (= značná intelektuální práce vyžadující náklady na zpracování)
- shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti pomocí speciálního indexačního programu, tzv. harvesteru (= automatizovaný proces reálný za předpokladu snížení ceny vysokokapacitních paměťových médií)
Pro řešení projektu, zejména pro archivaci elektronických zdrojů a prezentaci výsledků řešení slouží Linux-server, zakoupený z grantových investičních prostředků. Na doméně http://webarchiv.nkp.cz jsou zde zpřístupněny veškeré dokumenty, které publikovali členové řešitelského týmu k problematice projektu, dále odkazy na relevantní zdroje a zahraniční/mezinárodní projekty a softwarové nástroje připravené pro účely testování v rámci řešení projektu (v současné době generátor metadat a generátor URN).
#?-:nbsp;
2. NEDLIB : Networked European Deposit Library [online]. Hague (Nizozemí) : Koninklijke Bibliotheek, c1998, last updated 11-Mar-2001 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.kb.nl/nedlib>.#?-:nbsp;
3. The Nordic Metadata projects [online]. Helsinki (Finsko) : Helsinki University Library, 1996, last updated 21-Feb-2000 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.lib.helsinki.fi/meta>.#?-:nbsp;
4. Standards for electronic publishing : an overview [online]. A report for the NEDLIB project by Mark Bide & Associates. Haag : Koninklijke Bibliotheek, August 2000 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.kb.nl/coop/nedlib/results/e-publishingstandards.pdf>.#?-:nbsp;
5. CELBOVÁ, Ludmila. Elektronické zdroje publikované v síti Internet jako součást české národní bibliografie. Ikaros [online]. 2000, č. 6 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.ikaros.cz/node/602>.#?-:nbsp;
6. CELBOVÁ, Ludmila. Povinný výtisk elektronických publikací, zejména vzdálených elektronických zdrojů. Ikaros [online]. 2000, č. 10 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.ikaros.cz/node/670>.#?-:nbsp;
7. CELBOVÁ, Ludmila. Katalogizace elektronických zdrojů na Internetu: proč, co, jak?. Ikaros [online]. 2001, č. 2 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.ikaros.cz/node/700>.#?-:nbsp;
8. ŽABIČKA, Petr. Dublin Core - metadata pro popis elektronických dokumentů. Předneseno na konferenci DATASEM 2000, konané 21. až 24. října 2000 v Brně. Dostupné na World Wide Web: <http://webarchiv.nkp.cz/datasem2000.pdf>.#?-:nbsp;
9. ŽABIČKA, Petr. NEDLIB Harvester - technika "sklizně" informací. Ikaros [online]. 2000, č. 10 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://www.ikaros.cz/node/672>.#?-:nbsp;
10. CELBOVÁ, Ludmila a VOJTÁŠEK, Filip. Internetové zdroje jako součást národní publikační produkce. In Automatizace knihovnických procesů - 8. Praha : ČVUT - Výpočetní a informační centrum, 2001, s. 82-85.#?-:nbsp;
11. ŽABIČKA, Petr. Nástroje pro tvorbu metadat Dublin Core. In Automatizace knihovnických procesů - 8. Praha : ČVUT - Výpočetní a informační centrum, 2001, s. 86-91.#?-:nbsp;
12. Charakteristika WebArchivu [online]. Praha : Národní knihovna ČR, 2001, posl. aktual. 14-03-2001 [cit. 28. 4. 2001]. Dostupné na World Wide Web: <http://webarchiv.nkp.cz>.#?-:nbsp;