Bilance pilotního projektu WebArchiv anebo Co bude dál?
V časopise Ikaros byly průběžně uveřejňovány informace o projektu Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet (jednoduše WebArchiv), řešeného v Národní knihovně ČR v období duben 2000 - prosinec 2001 v rámci programu výzkumu a vývoje Ministerstva kultury ČR "Zpřístupňování a ochrana knihovních fondů formou digitalizace, s využitím mezinárodní sítě Internet v souvislosti s vytvářením informační společnosti". (viz poznámky)
Během dvouletého řešení projektu v Národní knihovně ČR se nejen značně rozšířil počet zemí, v nichž se začali systematicky zabývat problematikou registrace, archivace a trvalého zpřístupňování elektronických zdrojů publikovaných v síti Internet, ale tato komplexní problematika se také dostala do čela okruhů problémů řešených na poli mezinárodních institucí - zejména společná iniciativa CENL (Conference of European National Librarians) a FEP (Federation of European Publishers), jejímž výsledkem je Mezinárodní deklarace k odevzdávání elektronických dokumentů do konzervačního fondu (v rámci řešení projektu WebArchiv vznikl český překlad [4] této dohody). Problém trvalého uchování národního bohatství v podobě elektronických publikací, zejména síťových, tedy už přestává být experimentem "pokrokovějších" zemí, ale stává se obecně naléhavou výzvou pro knihovny i nakladatele, neboť objem digitálních informací narůstá obrovským tempem a politice ochrany těchto dokumentů a k tomu sloužícím technologiím se dosud věnovala minimální nebo nulová podpora. Mnohé z elektronických zdrojů "vzniklých jako digitální", tedy zdrojů, které nemají souběžnou kopii v jiné (nejčastěji tištěné) formě, byly již trvale ztraceny, neboť jejich tvůrci odstranili z webu své elektronické publikace, aniž by zajistili jejich trvalou archivaci. V této souvislosti citujme vyjádření IFLA, která usiluje rovněž o dohody s IPA (International Publishers` Association): "I když náklady na dlouhodobou archivaci jsou vysoké, náklady na nicnedělání v této oblasti by byly katastrofální."
Ukazuje se tedy, že v České republice se začalo s řešením komplexní problematiky registrace, ochrany a zpřístupňování elektronických publikací právě včas. V rámci dvouletého pilotního projektu, v podmínkách testování byly vytvořeny předpoklady pro postupné zavádění provozního zpracování této agendy. Konkrétně byly připraveny podklady pro právní zabezpečení získávání, archivace a zpřístupňování domácích elektronických zdrojů publikovaných v síti Internet, softwarové nástroje pro provádění těchto činností a byla navázána spolupráce s vybranými vydavateli síťových elektronických zdrojů pro simulaci těchto činností v praxi. Data získaná v rámci automatizovaného stahování zdrojů z webu (tzv. harvestingu) mohou být využívána rovněž pro registraci elektronických zdrojů dostupných online v České národní bibliografii.
Pro průběžné testování prací a softwarových nástrojů byl využíván unixový server, který sloužil k instalování nástrojů pro stahování dokumentů, pro ukládání údajů pro popis zdrojů aj. a pro ukládání zdrojů do webového archivu. V současné době je tato technika propojována s technikou sloužící programům digitalizace fondů NK, zejména s páskovým robotem.
Vzhledem k tomu, že Ministerstvo kultury ČR zrušilo vypsaný roční program VaV na rok 2002, do něhož podali řešitelé projektu WebArchiv v roce 2001 žádost o grant, nemá tento projekt prozatím pokračování. Nyní se čeká na rozhodnutí o návrzích projektů v programu VISK3, kde je opět podána žádost o grant na řešení dalších činností WebArchivu. V současné době pokračují v omezeném rozsahu činnosti v rámci rozpočtu Národní knihovny ČR, s využitím stávající techniky (zejména práce na konverzi dat Dublin Core do báze NK v systému Aleph a přípravě záznamů pro ČNB) a ve spolupracujícím Ústavu výpočetní techniky Masarykovy univerzity v Brně se prozatím pokračuje v rámci řešení výzkumného záměru ÚVT MU "Digitální knihovny" na dalším vývoji softwarových nástrojů a zejména testování a úpravách harvesteru. V rámci ročníkového týmového vývojového projektu na Matematicko-fyzikální fakultě UK, který vede zástupce ÚVT MU, pracují studenti na vytvoření vyhledávací infrastruktury pro WebArchiv.
Toto je ovšem třeba brát jako provizorní řešení, aby se práce v oblasti, která se velmi rychle vyvíjí, zcela nezastavily. Od vytvoření základních předpokladů v podmínkách testování k provoznímu řešení problematiky trvalého zajištění ochrany a zpřístupňování síťových elektronických zdrojů je ještě dlouhá a náročná cesta, vyžadující značné finanční prostředky zejména na technické vybavení a jeho průběžné obnovování i na průběžnou aktualizaci softwarových nástrojů. Je třeba počítat také s nároky na lidskou práci související jak s tvorbou bibliografické databáze, tak se správou výpočetní a komunikační techniky.
Na serveru WebArchiv byla zřízena webová prezentace projektu [5], kde mohou zájemci najít veškeré dokumenty publikované řešiteli k projektu (včetně závěrečné zprávy), odkazy na informační prameny a softwarové nástroje vyvinuté pro "veřejné" použití, které si mohou vyzkoušet a případně použít pro "své" webové zdroje.