Archiv celosvětového webu zpřístupněn
I když povšechné hodnocení kvality informací šířených po Internetu nevyznívá jednoznačně v jeho prospěch (odhlédneme-li od extrémních tvrzeních o tom, že Internet je plný balastu a je neseriózním médiem, je nesporné, že mnohé internetové publikační aktivity mají efemérní povahu), některé knihovny (a nejen ony) se v poslední době zabývají zpracováním, uchováváním a zpřístupněním webových zdrojů jako specifické kategorie elektronických dokumentů. Je třeba podotknout, že se přitom pohybují v úplně neznámé krajině, kde není možné se spolehnout na dosavadní zaběhnutá pravidla.
Jedním z projektů, který si zaslouží pozornost a který patří k prvním svého druhu, je Internet Archive. Cíl, který si tvůrci tohoto projektu, který od roku 1996 realizuje stejnojmenná nezisková společnost se sídlem v San Franciscu, předsevzali, není nikterak snadný: budování archivu celého volně přístupného webu. Na projektu se podílí řada institucí (např. Library of Congress, Smithsonian Natural Museum of American History, AT & T Labs, Xerox Palo Alto Research Center aj.). Hlavním partnerem Internet Archive je firma Alexa Internet, která je dceřinnou společností Amazon. com a která podniká v oblasti aplikací pro digitální knihovny a správy plnotextových databází. Ve spolupráci s ní byla na konci října 2001 uvedena do provozu služba Wayback Machine [4], která je nejen bránou k tomuto archivu, ale také, což je v této souvislosti podstatnější nabízí všem uživatelům unikátní příležitost prohlížet vybrané webové zdroje v podobě, jakou měly před pěti lety nebo minulý měsíc, a to na základě zadaného URL. Vyhledávání je možné omezit na určité období (podrobnější lze získat v nápovědě [5]).
[6]
Ikaros v Internet Archive
Hodnotu tohoto systému zvyšuje fakt, že některé z webových zdrojů nemusí vůbec existovat nebo jsou přesunuty na neznámou adresu. Aktuálně je v archivu uloženo asi deset miliard stránek, což představuje datový objem sto terabytů (pro srovnání: velikost českého webu se odhaduje na 300 gigabytů). Průměrný měsíční přírůstek činí deset terabytů. Je však třeba upozornit na dvě věci: za prvé odezva systému na rešeršní požadavek je nezřídka poměrně pomalá a za druhé zdaleka ne všechny stránky jsou kompletně "zrekonstruovány" - chybějí na nich obrázky, odkazy nejsou funkční a konečně archiv není úplný (podobně jako v případě běžných webových vyhledávacích služeb nelze zaručit, že jejich robot se dostane na všechny stránky).
Z technického hlediska Internet Archive využívá několik set serverů Hewlett Packard s kapacitou RAM 512 MB a pevnými disky IDE s kapacitou 300 GB. Počítače běží na operačním systému Linux. Ukazuje se nezbytné postupně posilovat jejich výkon, aby bylo možné uspokojit velký zájem.
Součástí Internet Archive jsou samostatné tematické sbírky:
- Prezidentské volby v roce 2000 [7] (oficiální stránky kandidátů a politických stran, zpravodajství na 800 serverech z období 1. 8. 2000 až 21. 1. 2001)
- Stránky týkající se teroristického útoku na Spojené státy 11. září 2001 [8], které byly vytvořeny korporacemi nebo jednotlivci na celém světě. Kromě toho jsou k dispozici záznamy zpravodajských relací některých televizních stanic (Čína, Rusko, Irák, Kanada, Velká Británie aj.) reagujících na tuto událost.
- Filmy [9], které byly natočeny pro reklamní, didaktické a jiné účely v letech 1903 až 1973. Sbírka, pochází Prelingerova archivu a která dokumentuje každodenní život v kulutře, ekonomice a politice ve Spojených státech, z v současnosti čítá 956 titulů, které jsou přístupné ve formátech MPEG-2 a MPEG-4. Soubory však mají velikost několik desítek až stovek megabytů.
- Sbírka věnovaná institucím [10], které na webu publikují od jeho "pionýrských" dob (Yahoo! [11], NASA, National Center for Supercomputer Applications, Amazon.com, Bílý dům, NASA aj.)