Vyhledávací služba Google začala indexovat soubory PDF
Od roku 1996, kdy firma Adobe Systems vyvinula formát PDF (Portable Document Format), jeho popularita mezi tvůrci elektronických (online) publikací neustále roste. Přispívá k tomu marketingová strategie Adobe Systems - prohlížeč souborů PDF (Acrobat Reader) je k dispozici zdarma (tisková zpráva z června 2000 uvádí, že v celosvětovém měřítku se používá kolem 160 miliónů kopií tohoto programu).
Hlavní přednost formátu PDF spočívá v tom, že umožňuje zachovat původní formátování dokumentu, což oceníme zvláště u složitě strukturovaných textů s grafickým doprovodem, které můžeme zpracovat v textovém procesoru a poté snadno a rychle konvertovat do PDF pomocí příslušného aplikačního softwaru (ten již musíme zaplatit), aniž bychom se museli spolehnout v tomto směru na nedokonalé funkce HTML. Díky tomu se PDF stal (ač de iure proprietárním formátem) de facto standardem při distribuci elektronických verzí odborných časopisů. Nepominutelnou výhodou PDF je také nezávislost na konkrétní platformě.
Podíl souborů PDF na celkovém počtu dokumentů na Internetu (resp. oproti souborům HTML) je sice relativně nízký, ale lze odůvodněně předpokládat, že co se týče seriózních publikačních aktivit, v kvantitativním srovnání by PDF dopadl daleko lépe. Každá mince má však i svůj rub. V případě PDF jde o to, že tyto často zajímavé zdroje uložené v tomto formátu, které nejsou jiným způsobem zveřejněny, zůstávají ztraceny v nekonečném kyberprostoru, neboť je roboti vyhledávacích služeb ignorovali (nemluvě o tom, že s výběrovou registrací online dokumentů se teprve začíná, a to jen v některých zemích). V této souvislosti se proto hovoří o "skrytém webu", o jehož rozsahu můžeme jen spekulovat. Změnu tohoto neuspokojivého stavu přináší Google, mnohými považovaný za nejprogresivnější webovou vyhledávací službu současnosti. Indexace PDF souborů byla zahájena 5. února 2001. Z uživatelského hlediska to znamená, že při zobrazení výsledku vyhledávání se v Google mohou objevit i odkazy na některé z 13 miliónů PDF souborů (v pořadí odpovídajícímu skóre relevance), které jsou součástí plnotextové databáze Google. Zpráva, která byla vydána bezprostředně poté na portálu Search Engine Watch [4], který se specializuje na problematiku webových vyhledávacích služeb, však upozornila na to, že indexy Google (rozprostřené na mnoha počítačích) jsou aktualizovány postupně, a tak ne všechny dotazy musejí být vyřízeny podle očekávání. Tento problém měl být vyřešen během následujícího týdne.
Odkazy na soubory PDF [5] jsou označeny zkratkou "[PDF]", která předchází názvu dokumentu. Pokud uživatel nemá nainstalovaný Acrobat Reader, může zvolit verzi v prostém ASCII (text only). Užitečná je funkce, pomocí níž lze rešerši omezit pouze na soubory PDF (syntax: "řetězec inurl: pdf").
V rámci podpory formátu PDF nabízí Adobe Systems obdobnou službu [6] jako Google, která má však spíše reklamní (či demonstrační) charakter, což ostatně přiznává i samotný Adobe Systems. Tato databáze zahrnuje asi milión souborů.