Možnosti systémů SMEALSearch a RePEc při vyhledávání informací a bibliometrické analýze v oblasti podnikání a ekonomie
Cílem tohoto článku je srovnat dva obdobně tematicky zaměřené systémy pro vyhledávání a získávání (většinou) volně dostupných plných textů na webu. Prvním je SMEALSearch [4], vyvinutý na Penn State`s Smeal College of Business, založený na technologii NEC. Druhým je RePEc [5] se svými jednotlivými službami , který vznikl spoluprací více než sta dobrovolníků ve 44 zemích. První se specializuje na oblast podnikání, druhý na oblast ekonomie. Mnoho dílčích témat je však pokryto oběma systémy.
Organizace systému, získávání a zpracování dokumentů
SMEALSearch získává odborné články, pracovní studie, výzkumné zprávy a statistiky plně automatizovaným prohledáváním webových sídel univerzit, komerčních organizací, výzkumných ústavů a vládních organizací. Většina dokumentů je stahována do vlastní databáze (přes 70 tisíc položek). Databáze RePEc (přibližně 300 tisíc položek, z toho 200 tisíc dostupných online) vzniká decentralizovaně činností lidí - spolupracující instituce sem vkládají bibliografické informace (metadata) o pracovních studiích, článcích, softwaru, knihách a kapitolách z knih. Každá instituce si může vytvořit vlastní archiv, do kterého mohou její členové přispívat. Databáze RePEc je systémem distribuovaným - bibliografické informace i plné texty jsou rozptýleny na serverech participujících organizací.
Shodnými rysem obou systémů je automatická identifikace a zpracování citací pomocí technologie CiteSeer, která byla již dříve použita v systému ResearchIndex zaměřeném na oblast počítačové vědy (blíže viz např. [1], [2]). Na vstupu jsou akceptovány pouze dokumenty ve formátu PDF a PostScript (ve SMEALSearch i Microsoft Word). Citace v systému RePEc zpracovává služba Citations in Economics [6]. Oba systémy také umožňují vkládat jednotlivým uživatelům vlastní data.
Rozhraní pro vyhledávání a prohlížení
SMEALSearch má umístěný box pro vyhledávání přímo na domovské stránce [4]. Podle volby uživatele probíhá vyhledávání pouze v dokumentech nebo pouze v citacích. Vyhledávání v databázi RePEc poskytuje služba IDEAS [7]. Ta oddělené vyhledávání v citacích neumožňuje, nabízí však omezení na jednotlivé typy dokumentů, resp. objektů. Oba systémy podporují booleovské operátory (OR, AND, NOT), SMEALSearch navíc i proximitní operátor (w/n). SMEALSearch vyhledává zadaná slova přesně (nelze použít pravostranné krácení), v IDEAS lze zvolit i "fuzzy" vyhledávání (zahrnuje synonyma, jiné koncovky slov a znaménka, podporuje i zástupný znak * na konci slova).
Zobrazení a řazení výsledků
Stránka s výsledky vyhledávání v dokumentech obsahuje seznam odkazů na všechny dokumenty vyhovující dotazu. Položky seznamu v IDEAS [8] obsahují název a abstrakt, jsou řazeny podle míry shody s dotazem, ve SMEALSearch [9] obsahují název, jméno autora, kontext, ve kterém se termíny vyskytují, a počet citací obdržených od ostatních dokumentů v databázi, podle kterého jsou také řazeny.
Stránka s výsledky vyhledávání [10] v citacích (pouze SMEALSearch) zobrazuje seznam citací vyhovujících selekčním termínům uspořádaný podle počtu citací obdržených od ostatních dokumentů v databázi.
IDEAS nabízí kromě vyhledávání i prohlížení jednotlivých typů dokumentů podle jejich poskytovatelů [11], resp. vydavatelů, podle autorů [12] nebo prohlížení celé databáze podle kódů klasifikace JEL [13].
Zobrazení záznamu dokumentu
(viz příklad studie v IDEAS [14] a v SMEALSearch [15])
V obou systémech se objevují informace o autorech, odkaz pro stažení plného textu (je-li k dispozici), abstrakt a seznam citujících i citovaných dokumentů. V SMEALSearch najdeme navíc seznam podobných dokumentů (na základě podobnosti textů) a dokumenty ze stejného umístění na webu, v IDEAS zase kódy klasifikace JEL a odkaz na počet prohlédnutí abstraktu a stažení plného textu.
Závěrem
Uvedené systémy mohou být vhodným doplňkem placených informačních zdrojů, protože obsahují i typy dokumentů, které se v nich mnohdy nevyskytují. (I když například vybrané záznamy pracovních studií z databáze RePEc jsou již předávány i do placené databáze EconLit.) Jde i vhodnou alternativou k obecně zaměřeným internetovým vyhledávačům, zejména v případech, kdy vede vyhledávání k nezvládnutelnému množství výsledků. Míra, do které se systémy překrývají, se pro různá témata velmi liší. Proto lze doporučit provést vyhledávání v každém z nich. Různá je i úroveň záznamů dokumentů (viz příklad záznamu studie, pro kterou lze z RePEc [16] získat seznam citací bez abstraktu, ze SMEALSearch [17] abstrakt bez citací). Plná automatizace sběru i zpracování dokumentů v systému SMEALSearch zatím bohužel vede k poměrně velkému množství chyb.
Použitelnost citačních dat k provádění bibliometrických studií je zatím velmi omezená. Mohou být využívána pro účely vyhledávání informací, ale při hodnocení vědeckých aktivit je s nimi nutné nakládat velmi obezřetně (zejména pro omezený rozsah databází, podíl zpracovaných citací a chyb při jejich identifikaci). Využitelné mohou být pro tento účel také statistické údaje o využívání databáze RePEc poskytované službou LogEc [18].
[1] BARRUECO, J.M., KRICHEL, T. Building an autonomous citation index for grey literature : the economics working papers case. In Proceedings GL6: Sixth International Conference on Grey Literature. New York (USA), 2004, s. 35-40. Dostupný také z WWW: http://eprints.rclis.org/archive/00003072/01/newyork.pdf [19]
[2] BRATKOVÁ, E. Citace odborné literatury jako nástroj rozvoje služeb a integrace digitálních knihoven. In AKP 2001 : Automatizace knihovnických procesů - 8 : sborník z 8. ročníku semináře pořádaného ve dnech 24.-25. dubna 2001 v Liberci. Praha : ČVUT, Výpočetní a informační centrum, 2001, s. 109-120. Dostupný také z WWW: http://knihovny.cvut.cz/akp/clanky/12.pdf [20]