Vyhledávání v archivu českých webových zdrojů (Jan Hutař, Lukáš Matějka, Ludmila Celbová)

Autoři:

Vydání:

2006, ročník 10, číslo 5/2

Rubrika:

Aktuální trendy a technologie digitálních knihoven

Jan Hutař J. Hutař (Národní knihovna ČR) nejprve uvedl důvod vzniku WebArchivu - stále více dokumentů je dostupných pouze v elektronické podobě, tyto dokumenty však nebývají k dispozici trvale. Začátek projektu sahá do roku 2000,projekt řeší NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně. Projekt je udržován a rozvíjen z grantových prostředků. Mezi cíle projektu WebArchiv patří zajištění pokud možno trvalého přístupu k "domácím" elektronickým zdrojům publikovaným na internetu. Vzhledem k množství online dokumentů a jejich různorodé kvalitě bylo potřeba stanovit kritéria výběru, které zdroje archivovat. Problémem je, že zdroje, které nyní považujeme za nepodstatné, mohou např. v horizontu 20 let naopak získat na hodnotě. V některých zemích je aplikována výběrová archivace, v jiných naopak archivace plošná. Trendem je tyto přístupy kombinovat - od počátku je kombinace přístupů upřednostňována také v projektu WebArchiv. NK ČR v rámci programu EU Culture 2000 koordinuje projekt "Web Cultural Heritage", jehož cílem je stanovení kritérií výběrové archivace (v úvahu je brán obsah, národní aspekt, doména, přístup, formát, původní forma a typ zdroje). V projektu WebArchiv je využíván výhradně software s otevřeným zdrojovým kódem. Na podzim roku 2005 byla zpřístupněna výběrová část WebArchivu. Zatím proběhly celkem tři sklizně domény .cz, a to v letech 2001, 2002 a 2004. Výběrové zdroje (cca 110 serverů), na které má NK ČR uzavřenu smlouvu o zpřístupnění, jsou sklízeny šestkrát ročně. V současnosti je ve WebArchivu uloženo cca 1,7 TB dat.

Lukáš Matějka L. Matějka (MU Brno) navázal na J. Hutaře s informacemi o technologickém řešení WebArchivu. Upozornil, že v letech 2004 až 2005 došlo ke změně používaného softwaru - proběhl přechod na harvester Heritrix, software vyvíjený konsorciem IIPC, který je volně dostupný. Je složen z jádra a přípojných modulů. Mezi problémy softwaru Heritrix patří neschopnost dlouhodobého sklízení webu bez odborných zásahů či neschopnost detekovat pasti. Pro zpřístupnění je používán vyhledávací stroj NutchWAX a software WERA (WEb aRchive Access) s propracovaným uživatelským rozhraním.

J. Hutař v závěru přednášky stručně seznámil publikum s plány na další rozvoj WebArchivu. V diskuzi byla zmíněna problematika archivace dynamicky generovaných stránek - obecné řešení zatím neexistuje, v rámci výběrových sklizní toto však lze úspěšně vyřešit.
(text přednášky)
(ls)

Hodnocení:

Vyhledávání v archivu českých webových zdrojů (Jan Hutař, Lukáš Matějka, Ludmila Celbová)

Vyhledávání v archivu českých webových zdrojů (Jan Hutař, Lukáš Matějka, Ludmila Celbová)

Ikaros.cz

Newsletter Ikaros.cz