WORKSHOP A: Vyhledávání citací: Google a další zdroje (Péter Jacsó)
Péter Jacsó je profesorem Informační vědy na University of Hawaii. Tématem semináře byla důležitá alternativa k řízenému a fulltextovému vyhledávání, používání a hodnocení citačních databází. Podle P.J. v zejména v minulosti (60 léta), platilo že při vyhledávání je nutno použít řízených slovníků (tezaury), avšak jsou to často nekvalitní a zastaralé nástroje (uvedeny příklady: v dtb. centru Dialog je dostupno 500 databází, z nich 38 má implementováno tezaurus; dále ukázány dvě databáze s nekvalitním tezaurem SPORTDiscuss, PAIS). Navíc se při cross-searching na tezaury nelze spolehnout, protože při indexování těchto zdrojů nebyl daný tezaurus použit.
Dnes je nutno využívat sílu fulltextového vyhledávání, avšak i to s sebou přináší úskalí různých slovních variant, hláskování a další lingvistické problémy. P.J. vyzdvihnul přednosti federated search engines – metavyhledávačů, a to zejména při identifikaci zdrojů - resource discovery. Zdůraznil následující komerční služby: CentralSearch [4], Polymeta [5], Webfeed, News Global, Metalib [6] – některé z nich nabízí kromě přehledu zdrojů, také klusterování výsledků, avšak informační profesionál musí počítat s tím, že volné fulltextové vyhledávání má svá omezení.
Citační vyhledávání je podle J.P. významnější než fulltextové a řízené vyhledávání. Protože citované zdroje (cited references) ukazují na tematicky stejné materiály. Podle citujících článků lze hodnotit kvalitu prací, vytvářet statistiky použitelnosti, kvalitu časopisů a zejména sledovat citační řetězce, a to včetně pohledu až na druhou úroveň - tedy pohled na zdroje citující citované materiály (no. times citing source was cited). Pro vyhledávání, úvodní orientaci v tématu P.J. hovořil o technice tří nejcitovanějších článků. Je potřeba najít a analyzovat tři nejcitovanější články a využít jich při dalším vyhledávání: terminologii, zdroje, autory (na dotaz, zda existují rozdíly mezi humanitními a přírodními vědami při použití této techniky P.J. odpověděl, že pravděpodobně ne).
Následovaly podrobnější informace a kritika jednotlivých citačních zdrojů s uvedením příkladů, grafů a statistik – zejména pokrytí LIS (Library and Information Science) časopisů, srovnání multioborovch citačních databází se specializovanými bibliografickými databázemi obohacenými o citace (PsycInfo, Econpapers) či analýza pokrytí jednotlivých autorů citačními zdroji.
TN WR WA CR WoS v DC Dialog 33.3 26 10.6 520-530 Scopus 1966-2007 30.1 11.2 21.4 230-240 Google Scholar 10-12 ? ? ? ------------------------------------------------------------ TN – total number, celkový počet záznamů WR – with references, záznamy obohacené o citace WA – with abstract, záznamy včetně abstraktu CR – cited references, celkové množství extrahovaných citací
Web of Science [7] jednoznačně převyšuje konkurenční produkty co do časového pokrytí, množství zdrojů, evidenci citaci, šíře záběru i zpracování jednotlivých ročníků (neobjevují se významnější výpadky, díry v evidenci citací). Kritizován byl příliš restriktivní formát, jakým jsou citace zapsány a indexovány, neschopnost řadit výsledky podle počtu citujících článků (cited by), nemožnost exportovat více než 500 záznamů či řadit více než 1100 záznamů (to omezuje statistické analýzy).
Scopus [8] obsahuje množství abstraktů, ale kvalita citační databáze má být hodnocena zejména množstvím zpracovaných citací, kde Scopus zaostává. Pokrytí od r. 1996, i když se objevují i záznamy už od r. 1966, při podrobnější analýze zjistíme, že existuje spousta prázdných míst – Scopus sice uvádí, že zpracovává 15 tis. časopisů, avšak mnohá čísla chybí, či časopis se vyskytuje v databází jen jednou - marketingová politika firmy se tak podle P.J. občas blíží spíše propagandě.
Google Scholar [9] není vhodným zdrojem pro vědeckou praxi zejména z následujících důvodů: záměrně neuvádí z čeho jsou citace získávány, jeho pokrytí silně zaostává za WoS i Scopus, výsledky jsou nekonzistentní (P.J. obvinil Google z blufování – množství vyhledaných záznamů pro anglické +the se v Google Scholar blíží 770 milionům, avšak hledání podle let 1457-2007 ukazuje cca 230 tis. záznamů). Kritika mířila i na nekvalitní extrakci citací, chybějící ročníky/čísla časopisů, záměrné ignorování metadat.
Dnes trend směřuje k tomu, že placené zdroje soutěží s open access databázemi. Citační databáze jsou velmi drahé a mnohé bibliografické záznamy lze nalézt zdarma (avšak nejsou obohaceny o citační služby). Při nákupu citačních databází je třeba zohlednit zejména velikost databáze citací, kvalitu citačního indexu, nikoliv přítomnost abstraktu, časový rozsah, pokryté zdroje - vyžádat si od dodavatele analýzu pokrytí, absolutní čísla o citujících zdrojích např. podle námi vybraného souboru časopisů – pokryté obory, multidisciplinaritu/oborovost. Důležitým bodem je také software: schopnosti vyhledávání, formát citací, dostupná metadata, propojení citací do ostatních zdrojů (instant links), či perzistentní identifikátory (DOI linky) a snadnost používání.
V průběhu semináře byly na různých místech zmíněny následující citační databáze/produkty: arXiv.org [10], Citeseer [11], HighWire Press [12] (podle P.J. nejlepší mezi open access citačními dtb., 1.7 milionů článků zdarma v plném textu, zahrnuje jedny z nejlepších časopisů napříč vědami, velmi kvalitní zpracování), NASA ADS [13], IUCr [14], PubMed Central [15], EconPapers [16], RePEc [17] (IDEAS [18], LogEc [19]). Kromě tradičních hráčů jako Elsevier a ISI se k citačním službám přidávají následující producenti CSA, EBSCO, ScienceDirect, ACM Digital library, Annual Reviews (AR), Blackwell Synergy.
(rca)