WORKSHOP A: Vyhledávání citací: Google a další zdroje (Péter Jacsó)

0 comments

Anglicky

English title:

The state of the art in the citation-based searching

English subtitle:

Google scholar & Beyond

Autoři:

Ikaros, redakce [1]

Vydání:

2007, ročník 11, číslo 5/2 [2]

Rubrika:

Workshopy [3]

P.Jacsó Péter Jacsó je profesorem Informační vědy na University of Hawaii. Tématem semináře byla důležitá alternativa k řízenému a fulltextovému vyhledávání, používání a hodnocení citačních databází. Podle P.J. v zejména v minulosti (60 léta), platilo že při vyhledávání je nutno použít řízených slovníků (tezaury), avšak jsou to často nekvalitní a zastaralé nástroje (uvedeny příklady: v dtb. centru Dialog je dostupno 500 databází, z nich 38 má implementováno tezaurus; dále ukázány dvě databáze s nekvalitním tezaurem SPORTDiscuss, PAIS). Navíc se při cross-searching na tezaury nelze spolehnout, protože při indexování těchto zdrojů nebyl daný tezaurus použit.

Dnes je nutno využívat sílu fulltextového vyhledávání, avšak i to s sebou přináší úskalí různých slovních variant, hláskování a další lingvistické problémy. P.J. vyzdvihnul přednosti federated search engines – metavyhledávačů, a to zejména při identifikaci zdrojů - resource discovery. Zdůraznil následující komerční služby: CentralSearch [4], Polymeta [5], Webfeed, News Global, Metalib [6] – některé z nich nabízí kromě přehledu zdrojů, také klusterování výsledků, avšak informační profesionál musí počítat s tím, že volné fulltextové vyhledávání má svá omezení.

Citační vyhledávání je podle J.P. významnější než fulltextové a řízené vyhledávání. Protože citované zdroje (cited references) ukazují na tematicky stejné materiály. Podle citujících článků lze hodnotit kvalitu prací, vytvářet statistiky použitelnosti, kvalitu časopisů a zejména sledovat citační řetězce, a to včetně pohledu až na druhou úroveň - tedy pohled na zdroje citující citované materiály (no. times citing source was cited). Pro vyhledávání, úvodní orientaci v tématu P.J. hovořil o technice tří nejcitovanějších článků. Je potřeba najít a analyzovat tři nejcitovanější články a využít jich při dalším vyhledávání: terminologii, zdroje, autory (na dotaz, zda existují rozdíly mezi humanitními a přírodními vědami při použití této techniky P.J. odpověděl, že pravděpodobně ne).

Následovaly podrobnější informace a kritika jednotlivých citačních zdrojů s uvedením příkladů, grafů a statistik – zejména pokrytí LIS (Library and Information Science) časopisů, srovnání multioborovch citačních databází se specializovanými bibliografickými databázemi obohacenými o citace (PsycInfo, Econpapers) či analýza pokrytí jednotlivých autorů citačními zdroji.

                        TN        WR      WA        CR
WoS v DC Dialog         33.3      26      10.6      520-530 
Scopus 1966-2007        30.1      11.2    21.4      230-240
Google Scholar          10-12     ?       ?         ?
------------------------------------------------------------
TN – total number, celkový počet záznamů
WR – with references, záznamy obohacené o citace
WA – with abstract, záznamy včetně abstraktu
CR – cited references, celkové množství extrahovaných citací

Web of Science [7] jednoznačně převyšuje konkurenční produkty co do časového pokrytí, množství zdrojů, evidenci citaci, šíře záběru i zpracování jednotlivých ročníků (neobjevují se významnější výpadky, díry v evidenci citací). Kritizován byl příliš restriktivní formát, jakým jsou citace zapsány a indexovány, neschopnost řadit výsledky podle počtu citujících článků (cited by), nemožnost exportovat více než 500 záznamů či řadit více než 1100 záznamů (to omezuje statistické analýzy).

Scopus [8] obsahuje množství abstraktů, ale kvalita citační databáze má být hodnocena zejména množstvím zpracovaných citací, kde Scopus zaostává. Pokrytí od r. 1996, i když se objevují i záznamy už od r. 1966, při podrobnější analýze zjistíme, že existuje spousta prázdných míst – Scopus sice uvádí, že zpracovává 15 tis. časopisů, avšak mnohá čísla chybí, či časopis se vyskytuje v databází jen jednou - marketingová politika firmy se tak podle P.J. občas blíží spíše propagandě.

Google Scholar [9] není vhodným zdrojem pro vědeckou praxi zejména z následujících důvodů: záměrně neuvádí z čeho jsou citace získávány, jeho pokrytí silně zaostává za WoS i Scopus, výsledky jsou nekonzistentní (P.J. obvinil Google z blufování – množství vyhledaných záznamů pro anglické +the se v Google Scholar blíží 770 milionům, avšak hledání podle let 1457-2007 ukazuje cca 230 tis. záznamů). Kritika mířila i na nekvalitní extrakci citací, chybějící ročníky/čísla časopisů, záměrné ignorování metadat.

Dnes trend směřuje k tomu, že placené zdroje soutěží s open access databázemi. Citační databáze jsou velmi drahé a mnohé bibliografické záznamy lze nalézt zdarma (avšak nejsou obohaceny o citační služby). Při nákupu citačních databází je třeba zohlednit zejména velikost databáze citací, kvalitu citačního indexu, nikoliv přítomnost abstraktu, časový rozsah, pokryté zdroje - vyžádat si od dodavatele analýzu pokrytí, absolutní čísla o citujících zdrojích např. podle námi vybraného souboru časopisů – pokryté obory, multidisciplinaritu/oborovost. Důležitým bodem je také software: schopnosti vyhledávání, formát citací, dostupná metadata, propojení citací do ostatních zdrojů (instant links), či perzistentní identifikátory (DOI linky) a snadnost používání.

V průběhu semináře byly na různých místech zmíněny následující citační databáze/produkty: arXiv.org [10], Citeseer [11], HighWire Press [12] (podle P.J. nejlepší mezi open access citačními dtb., 1.7 milionů článků zdarma v plném textu, zahrnuje jedny z nejlepších časopisů napříč vědami, velmi kvalitní zpracování), NASA ADS [13], IUCr [14], PubMed Central [15], EconPapers [16], RePEc [17] (IDEAS [18], LogEc [19]). Kromě tradičních hráčů jako Elsevier a ISI se k citačním službám přidávají následující producenti CSA, EBSCO, ScienceDirect, ACM Digital library, Annual Reviews (AR), Blackwell Synergy.

(rca)

Klíčová slova:

bibliometrie [20]

vyhledávání informací [21]

Scopus [22]

Web of Science [23]

citační databáze [24]

Hodnocení: