Sorry, you need to enable JavaScript to visit this website.

Vyhledávání ve webovské prezentaci snadno a rychle, ale ne zcela efektivně

Čas nutný k přečtení
3 minut
Již přečteno

Vyhledávání ve webovské prezentaci snadno a rychle, ale ne zcela efektivně

0 comments
Každá seriózní rozsáhlejší webovská prezentace (od počtu několika desítek stránek), která nemá zůstat souborem více či méně nahodile propojených stránek, která není výsledkem pouze spontánního rozhodnutí bez koncepce a která se bude průběžně upravovat a rozšiřovat, se bez vyhledávacího systému neobejde. Pokud naše programátorské znalosti (např. v jazyce Perl) nedosahují takové úrovně, abychom zvládli napsat vlastní CGI skript, je třeba se obrátit jinam.

Ovšem cesta, po níž by se zběhlejší uživatelé Internetu nejspíše vydali, neumí přinést žádané ovoce. Knihovny k tomu účelu určené (např. lze doporučit CGI Resource Index nebo Perl Archive - bez ohledu na to, zda máte zájem o programy pro vyhledávání) totiž v drtivé většině případů obsahují skripty "šité na míru" kódování ISO-Latin 1. Jinak řečeno, přestože vesměs umožňují jednoduchou instalaci (stačí zapsat několik parametrů a o nic jiného se nemusíme starat), při jejich používání se dočkáme neuspokojivého výsledku - řetězec obsahujíci znaky s diakritikou ze sady kódování ISO-Latin 2, resp. Windows-1250 (konkrétně písmena s háčky) nebude nalezen. Dodatečné zásahy do skriptu nepatří k těm nejsnazším. Nepříjemná situace, ale zoufat nemusíme.

Při troše úsilí se lze na Internetu dopátrat pomoci. Jednou z možností, kterou bychom měli vzít v úvahu, představuje server Atomz.com (za upozornění děkuji Jiřímu Koskovi), který nabízí zdarma indexování prezentace o max. 500 stránkách (při vyšším počtu je třeba zaplatit), a to včetně souborů ve formátu PDF, které veřejné webovské vyhledávací služby ignorují. V tomto detailu ovšem nespočívá hlavní výhoda Atomz.com. Celkově lze prohlásit o tomto systému, že je určen i méně zkušeným webovským administrátorům. Po registraci (prostřednictvím formuláře s obvyklými poli, mezi nimiž hraje klíčovou roli URL vstupní stránky) obdržíte heslo do své emailové schránky, jejíž adresa slouží jako uživatelské jméno.

Spuštění programu, který indexuje vaše stránky, předchází nekolik důležitých kroků: výběr kódování a jazyka (čeština je explicitně uvedena), zápis tzv. stop-slov, nastavení kontroly pravopisu (týká se zejména angličtiny). Za zvláštní zmínku stojí principy tzv. fuzzy logiky, které se uplatňují při automatickém vyhledávání příbuzných slov. Tato funkce může ušetřit práci, ale jen zdánlivě - skutečnost není podle mých zkušeností tak radostná. Využívání příslušného slovníku (pokud jde o češtinu) se ukazuje jako kontraproduktivní. Mezi odkazy na stránky, které "odpovídají" dotazu, je část naprosto z formálního hlediska irrelevantních. Na druhé straně, jestliže tato funkce není aktivována, lze vyhledávat pouze celá slova (např. při zadání řetězce "kurs"nejsou nalezeny stránky obsahující "kursy" atd.) - pravostranné krácení, běžná rešeršní technika, tedy nelze v Atomz.com aplikovat. Jaké komplikace (z hlediska efektivity daného systému) tento fakt přináší, není třeba zdůrazňovat.

Indexační program můžeme aktivovat "manuálně", kliknutím v podstatě kdykoliv, aniž bychom provedli v konfiguraci změny, nebo určit den a hodinu (v týdenním intervalu), kdy má dojít k aktualizaci databáze reprezentující stránky z vaší prezentace. V této souvislosti je na místě upozornit na to, že je třeba se vyvarovat skriptů, které na základě detekce typu a verze prohlížeče zajišťují přesměrování.

K vyhledávání samotnému můžeme použít tradiční formulář, jehož záhlaví, stejně jako skrytá pole obsahující údaje zasílané CGI skriptu jako součást dotazu, který běží na straně serveru Atomz.com, jsou generovány Atomz.com a nás pouze je, abychom je přidali do zdrojového kódu HTML příslušné stránky.

Samostatnou kapitolu tvoří zobrazení výsledků vyhledávání. Nemusíme se spokojit pouze s jedním způsobem - k dispozici je několik šablon, které jsou napsány v HTML obohaceném o sadu značek zastupující jednotlivé proměnné (např. selekční výraz, obsah pole, URL, počet relevantních stránek apod.), případně můžeme, pokud si tento hybridní formátovací jazyk osvojíme, vytvořit vlastní vzor této stránky.

Přestože systém Atomz.com se vyznačuje výraznými přednostmi ve srovnání s běžně dostupnými perlovskými skripty (podpora kódování Windows-1250, jednoduché ovládání, flexibilita, rychlost vyhledávání, není třeba instalace v adresáři /cgi-bin), musíme počítat v českém prostředí s určitými omezeními vyplývající z nemožnosti pravostranného krácení, která zapřičiňují nižší efektivitu.

Klíčová slova: 
Hodnocení: 
Zatím žádné hodnocení
VOJTÁŠEK, Filip. Vyhledávání ve webovské prezentaci snadno a rychle, ale ne zcela efektivně. Ikaros [online]. 1999, ročník 3, číslo 11 [cit. 2020-12-01]. urn:nbn:cz:ik-10434. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10434

automaticky generované reklamy