Sorry, you need to enable JavaScript to visit this website.

Archiv celosvětového webu zpřístupněn

Čas nutný k přečtení
2 minut
Již přečteno

Archiv celosvětového webu zpřístupněn

0 comments

I když povšechné hodnocení kvality informací šířených po Internetu nevyznívá jednoznačně v jeho prospěch (odhlédneme-li od extrémních tvrzeních o tom, že Internet je plný balastu a je neseriózním médiem, je nesporné, že mnohé internetové publikační aktivity mají efemérní povahu), některé knihovny (a nejen ony) se v poslední době zabývají zpracováním, uchováváním a zpřístupněním webových zdrojů jako specifické kategorie elektronických dokumentů. Je třeba podotknout, že se přitom pohybují v úplně neznámé krajině, kde není možné se spolehnout na dosavadní zaběhnutá pravidla.

Jedním z projektů, který si zaslouží pozornost a který patří k prvním svého druhu, je Internet Archive. Cíl, který si tvůrci tohoto projektu, který od roku 1996 realizuje stejnojmenná nezisková společnost se sídlem v San Franciscu, předsevzali, není nikterak snadný: budování archivu celého volně přístupného webu. Na projektu se podílí řada institucí (např. Library of Congress, Smithsonian Natural Museum of American History, AT & T Labs, Xerox Palo Alto Research Center aj.). Hlavním partnerem Internet Archive je firma Alexa Internet, která je dceřinnou společností Amazon. com a která podniká v oblasti aplikací pro digitální knihovny a správy plnotextových databází. Ve spolupráci s ní byla na konci října 2001 uvedena do provozu služba Wayback Machine, která je nejen bránou k tomuto archivu, ale také, což je v této souvislosti podstatnější nabízí všem uživatelům unikátní příležitost prohlížet vybrané webové zdroje v podobě, jakou měly před pěti lety nebo minulý měsíc, a to na základě zadaného URL. Vyhledávání je možné omezit na určité období (podrobnější lze získat v nápovědě).


Ikaros v Internet Archive

Hodnotu tohoto systému zvyšuje fakt, že některé z webových zdrojů nemusí vůbec existovat nebo jsou přesunuty na neznámou adresu. Aktuálně je v archivu uloženo asi deset miliard stránek, což představuje datový objem sto terabytů (pro srovnání: velikost českého webu se odhaduje na 300 gigabytů). Průměrný měsíční přírůstek činí deset terabytů. Je však třeba upozornit na dvě věci: za prvé odezva systému na rešeršní požadavek je nezřídka poměrně pomalá a za druhé zdaleka ne všechny stránky jsou kompletně "zrekonstruovány" - chybějí na nich obrázky, odkazy nejsou funkční a konečně archiv není úplný (podobně jako v případě běžných webových vyhledávacích služeb nelze zaručit, že jejich robot se dostane na všechny stránky).

Z technického hlediska Internet Archive využívá několik set serverů Hewlett Packard s kapacitou RAM 512 MB a pevnými disky IDE s kapacitou 300 GB. Počítače běží na operačním systému Linux. Ukazuje se nezbytné postupně posilovat jejich výkon, aby bylo možné uspokojit velký zájem.

Součástí Internet Archive jsou samostatné tematické sbírky:

  • Prezidentské volby v roce 2000 (oficiální stránky kandidátů a politických stran, zpravodajství na 800 serverech z období 1. 8. 2000 až 21. 1. 2001)
  • Stránky týkající se teroristického útoku na Spojené státy 11. září 2001, které byly vytvořeny korporacemi nebo jednotlivci na celém světě. Kromě toho jsou k dispozici záznamy zpravodajských relací některých televizních stanic (Čína, Rusko, Irák, Kanada, Velká Británie aj.) reagujících na tuto událost.
  • Filmy, které byly natočeny pro reklamní, didaktické a jiné účely v letech 1903 až 1973. Sbírka, pochází Prelingerova archivu a která dokumentuje každodenní život v kulutře, ekonomice a politice ve Spojených státech, z v současnosti čítá 956 titulů, které jsou přístupné ve formátech MPEG-2 a MPEG-4. Soubory však mají velikost několik desítek až stovek megabytů.
  • Sbírka věnovaná institucím, které na webu publikují od jeho "pionýrských" dob (Yahoo!, NASA, National Center for Supercomputer Applications, Amazon.com, Bílý dům, NASA aj.)
Hodnocení: 
Průměr: 5 (hlasů: 14)
VOJTÁŠEK, Filip. Archiv celosvětového webu zpřístupněn. Ikaros [online]. 2001, ročník 5, číslo 12 [cit. 2024-03-28]. urn:nbn:cz:ik-10840. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10840

automaticky generované reklamy
registration login password