Orientační testování báze dat Scopus
Když nakladatelství Elsevier oznámilo uvedení nové báze dat pod názvem Scopus s deklarovaným multioborovým záběrem, vyvolalo to pochopitelně velkou pozornost mezi nejširší odbornou veřejností, a to přesto, že tento krok byl již delší dobu očekáván a Elsevier organizoval řadu testování předběžných koncepcí a nakonec i beta verzí. I autor těchto řádek měl možnost některé varianty testovat a vyjadřovat svůj názor. Konečná verze představuje ale vždy velkou neznámou a vyzkoušet i porovnat nový produkt se stávajícími bázemi je lákavé i zajímavé. Je ale nutné zdůraznit, že následující výčet některých charakteristik nové báze představuje výlučně předběžné a orientační testování, které by mělo spíše upřesnit všeobecné charakteristiky deklarované producentem a poskytnout tak podklady a směr podrobnějšího testování, které si bude muset udělat každý, kdo bude vážně uvažovat o realizaci licenčního přístupu. To, že v současné době má celá řada našich vědeckých knihoven možnost s bází dat Scopus pracovat, by mělo být k takovému orientačními testování využito.
1. Otázka rozsahu báze dat a zpracovávaného materiálu
Hlavní argument zdůrazňující přednosti báze Scopus je, že zpracovává cca 15 000 časopisů a měla by tak být vůbec největší existující bází dat. Určitě není podstatné, zda tomu tak je či není, ostatně pro posuzování velikosti báze dat může být použito více kritérií, ale v každém případě Elsevier nevytváří bázi dat Scopus tak, že předplácí 15 000 periodik a formou ručního intelektuální zpracovávání primárních dokumentů vytváří sekundární bázi. Podle více či méně oficiálních prohlášení je báze dat Scopus vytvářena především z bází jako je COMPENDEX, GEOBASE, BIOBASE, EMBASE, tedy bází v majetku nakladatelství Elsevier a případně dalších bibliografických bází nebo podobných souborů na základě dohod s jejich producenty nebo majiteli, případě využívají se i zdroje volně dostupné. Důležitou roli hrají citace uváděné ve zmíněných zdrojích, které jsou jak součástí báze, tak i zdrojem odkazů na další primární zdroje [JASCO, 2005]. Velký počet periodik je dáván do protikladu s bází Web of Science (WoS), jejíž objem zpracovávaných periodik je většinou udáván kolem 6 000 titulů. I když je známo, že WoS je báze výběrová, je užitečné si porovnat zásady, podle kterých je vybírán daný titul pro zpracování v té či oné bázi:
Web of Science:Časopis je zahrnut do WoS tehdy, pokud má prokazatelně určitou odezvu konkretizovanou jako počet citací článků v daném titulu otištěné. Neboli časopis musí být citován. | Scopus: Pro zařazení titulu do zpracování jsou určena následující kritéria: 1. Články musí mít anglický abstrakt 2. Časopis musí vycházet pravidelně 3. Práce musí být recenzovány. (oficiální informace producenta) |
Podstatný je pochopitelně anglický abstrakt, který je evidentně zdrojem pro více či méně automatické indexování; pravidelnost není dále specifikována a pro konstatování, že daný časopis je recenzován („peer-reviewed“) neexistují objektivní kritéria.
Uvedený rozdíl nemusí a priori znamenat, že materiál v bázi dat Scopus má nižší úroveň, ale v každém případě tyto rozdílné zásady zpracovávání materiálu vedou k výraznému posunu v jeho zaměření. Zatímco citační praxe a výchozí zaměření Science Citation Index (tištěný předchůdce WoS) se orientovalo (a stále orientuje) především na vědecké časopisy komunikující výsledky vědeckého bádání jako svůj jediný (nebo velmi výrazně dominující) obsah, existují (a vždy existovaly) odborné nebo i v pravém slova smyslu vědecké časopisy, které více či méně doplňují komunikaci vědeckých výsledků i dalším obsahem. Častý je případ, kdy jsou vědecké články, někdy spíše krátké, doplněny zprávami o různých aktivitách z příbuzných nebo i vzdálených oborů, dále jsou publikovány spolkové informace nebo informace všeobecně zajímavé nebo vůbec důležité pro vědeckou komunitu (tento typ článků je zahrnován i ve WoS v případech, že je daný časopis zpracováván zásadou „From cover to cover“, ale příslušné články nejsou zahrnovány do výpočtu IF). Jiný častý případ jsou přehledné shrnující nebo jinak sumarizující informace, které už svou koncepcí nejsou orientovány na to, aby byly citovány, ale mají spíše osvětový charakter. Takové informace logicky mají spíše regionální, v Evropě tedy národní charakter. Podrobněji se otázce regionálního zastoupení budeme věnovat v další kapitole.
Poměrně přesnou představu o možném rozdílu v celkovém počtu zpracovávaných periodik získáme, pokud si zobrazíme rozložení hodnocení úrovně časopisů formou impakt faktorů (IF) ve WoS. Z grafického zobrazení průběhu poklesu IF s počtem časopisů pro celý rozsah zpracovaného souboru v Journal Citation Report (celkem 5969 titulů, v grafu je vynecháno prvních 100 časopisů s nejvyšším IF) je jasně patrný rychlý pokles hodnoty IF pro prvních cca 1000 titulů.
Zobrazení rozsahu od 4000. časopisu pak opět velmi názorně ukazuje poměrně rychlý a stálý (přibližně lineární) pokles hodnoty IF až prakticky k nule. Hodnoty IF končí na čísle 0,005, všechny další jsou brány jako 0,0. I když je nepochybné, že v souboru chybí tituly, jejichž IF by byl určitě vyšší než nulový, nemůže být takových titulů mnoho a budou pouze posunovat oblast nízkých hodnot IF k vyššímu celkovému počtu. Opět je nutné zdůraznit, že to neznamená vysloveně špatnou úroveň nezahrnutých časopisů, ale s velkou pravděpodobností se bude jednat o tituly, jejichž ediční politika se více či méně liší od typického vědeckého periodika. Rozdíl mezi WoS a Scopusem v počtu titulů se pak logicky bude pohybovat právě v oblasti nižších IF a asi hlavně v neimpaktovaných časopisech.
2. Oborové pokrytí
Oficiální stanovisko je, že báze Scopus je multidisciplinární, ovšem orientována spíše na přírodní vědy („Life Sciences“) a techniku s negativním vymezením vůči umění a humanitním vědám („Arts and Humanities“) a s omezeným zaměřením na sociální vědy. Přesnější představu poskytnou konkrétní údaje (tyto údaje jsou převzaty z práce [JACSO, 2005]):
Rozložení časopisů:
Health and Life Science | 37.7 % |
Chemistry, Physics, Math and Engineering | 29% |
Biological and Agricultural, Earth and Environmental Sci. | 16 % |
Social Sciences, Psychology and Economics | 17 % |
General Science | 0.3 % |
Rozložení dokumentů:
Health and Life Science | 60 % |
Chemistry, Physics, Math and Engineering | 25 % |
Biological and Agricultural, Earth and Environmental Sci. | 13 % |
Social Sciences, Psychology and Economics | 2 % |
Jak z podílu časopisů, tak ještě daleko výrazněji z rozložení článků je jednoznačně patrné, že zastoupení jiných disciplín než přírodovědných je malé, až velmi malé. A i když termín „Health and Life Science“ je široký, dominantní postavení medicíny je nepochybné.
Dominantní orientace na medicínské obory na jedné straně vysvětluje zájem lékařských fakult o přístup k bázi Scopus, na druhé straně je ale málo pochopitelný zájem o Scopus ve srovnání s možnostmi zcela volně přístupného PubMedu. Následujících několik náhodně provedených srovnání v některých případech až dramaticky ilustruje daleko větší záběr PubMedu ve srovnání se Scopusem (uvedené počty odkazů byly získány v prosinci 2006):
Dotaz | Počet odkazů | ||
Scopus | WoS | PubMed | |
Bronchodilators AND asthma AND children | 1652 | 251 | 4522 |
„Kidney stones“ AND Vitamin C | 33 | 47 | 66 |
„anorexia nervosa“ AND osteoporosis AND contraceptives | 13 | 18 | 12 |
„anorexia nervosa“ OR „eating disorder“ AND „oral contraceptives“ | 26 | 44 | 87 |
heat OR humidity AND „multiple sclerosis“ | 225 | 333 | 243 |
Vyjma prvního příkladu je především pozoruhodná překvapivá shoda ve výsledcích mezi třemi bázemi dat, zpravidla poněkud nižší počty odkazů u Scopusu lze vysvětlit zatím ještě neukončeným budováním této báze. Pro první, výrazně rozdílné výsledky, se nabízí lákavý závěr o vlivu algoritmu používaného pro práci s víceslovnými frázemi, kde jsou výsledky shodné, oproti jednoduchému vyhledávání jen jednoslovných termínů. Bez dalšího zkoumání ale nelze takový závěr přijmout jako prokázaný. V každém případě jsou ale výsledky získané ve zcela volně přístupném PubMedu prokazatelně nejenom srovnatelné, ale možná i s vyšší užitnou hodnotou a tento zdroj tak představuje značnou konkurenci Scopusu. Navíc má současná volně přístupná verze PubMedu podstatně sofistikovanější vyhledávací algoritmus, který automaticky převádí zadaný dotaz do logického vztahu se zahrnutím kódů MeSH. Další předností je pak opět velmi výrazná orientace PubMedu na koncepci volného přístupu ("Open Access") a propojení na celou řadu dalších zdrojů NML.
Prakticky ke stejnému závěru o určité jednostranností Scopusu a hlavně o neexistenci periodik z humanitních a příbuzných disciplín došel i autor podobného pokusu o srovnání s WoS, který jasně konstatuje, že pro univerzity s celým spektrem oborů je WoS nezastupitelný [LaGUARDIA, 2005].
3. Regionální pokrytí
Z výše uvedeného rozboru se pak bezprostředně nabízí vysvětlení často zdůrazňované přednosti Scopusu jako báze dat s „evropským“ zaměřením. Zdá se, že se především jedná o větší podíl zpracovávaných regionálních zdrojů, kterých je díky evropské jazykové pestrosti pochopitelně daleko více než obdobných, jazykově jednotných zdrojů amerických. Okruh zdrojů zaměřených výhradně nebo převážně na komunikování výsledků vědecké činnosti je principiálně orientován celosvětově, nebývá proto výrazněji regionálně ohraničen a je proto logicky obdobný jak u WoS, tak i u Scopusu.
O povaze národní produkce vědeckých informací, jejíž zahrnutí do zpracovávaného souboru báze dat Scopus je zdůrazňováno, je možné si udělat konkrétnější představu celkem jednoduchou analýzou souboru českých periodik. Báze dat Scopus zpracovává celkem 160 titulů českých odborných periodik, což je nepochybně hodně a pravděpodobně žádný jiný zdroj neumožňuje získat přístup k jejich obsahu za období od r. 1960 do současnosti. Samozřejmě je tento počet poněkud zavádějící, protože obsahuje i tituly již nevydávané, např. celou řadu časopisů s názvem Československá ofthalmologie, Československá epidemiologie apod., nicméně v porovnání s Web of Science, kde je zahrnuto jen cca 25 titulů (v r. 2000 to bylo 27 titulů) se jedná o podstatně větší soubor. Poněkud jinak ale vypadá tento fakt, pokud si všimneme, že z celkového počtu 160 titulů má 58 titulů, tj. 36 %, za celé dostupné období, tj. od r. 1960 (v daném souboru byl nejstarší dokument z r. 1965) méně než 100 článků. Pokud se pak podíváme na jednotlivé tituly, na první pohled vidíme převažující podíl medicíny, a to jak v celkovém podílu článků, kde medicína zaujímá 81 %, tak i v pořadí objemového zastoupení, kde prvních 25 titulů je výhradně z této oblasti (první nemedicínský titul jsou Chemické listy v pořadí podle objemu článků na 27. místě). Dokumenty zařazené pod heslo "Chemistry" představují jen 0,86 %. To, že ale pravděpodobně nejde o specifikum České republiky, ukazují jen orientačně testové soubory německých časopisů, kde medicína a související obory (farmakologie, genetika apod.) zaujímají 74 %, v souboru slovenských časopisů je to 78 % a v souboru francouzských titulů 82 %. Všechny ostatní obory zaujímají velmi výrazný odstup s procentním zastoupením pod 10 %, jen mezi německými tituly má na druhém místě "Engineering" 13,6 %. Zdá se tedy, že deklarovaná orientace na evropské zdroje se týká převážně nebo dokonce výhradně medicíny, což může odpovídat tradičně vysokému podílu medicíny v národní produkci vědeckých časopisů.
Je tedy patrné, že argument o „evropském“ zaměření je nutné chápat ve výše uvedených souvislostech a v jiných oborech než právě medicína se nemusí očekávání většího podílu evropských dokumentů vůbec projevit.
4. Citační ohlasy a impakt faktor
Zahrnutí tzv. citačních ohlasů nepředstavuje při současné úrovni digitalizace dokumentů mimořádně složitý problém a ovšem také nic, za co by bylo nutné moc platit. Citační ohlasy jsou dnes získatelné i z Google Scholar. Zásadní rozdíl ale je, že WoS sbírá citační ohlasy jako principiální a koncepční zásadu své činnosti (Web of Science je elektronická forma referátového časopisu Science Citation Index), a to od cca 60. let minulého století. Scopus při svém uvedení zahrnoval citační ohlasy zatím jen za posledních 10 let, protože pro takové údaje má k dispozici jen současnou digitální formu dokumentů. Samozřejmě hranici 10 let se bude snažit postupně posouvat směrem do minulosti, ovšem i jiné zdroje dnes zahrnují citační ohlasy (nebo se o to snaží či budou snažit) a údaje o citačních ohlasech se může i dramaticky změnit skokovým doplněním zpracovávaného souboru o další digitalizované období.
Je ale především nutné si uvědomit co porovnáváme. Jacso ve své studii [JACSO, 2005] porovnal 30 nejvíce citovaných článků z Current Science a zjistil prakticky naprostou shodu mezi WoS a Scopusem:
Web of Science | Scopus | |
30 nejvíce citovaných článků v Current Science | 977 citací | 992 citací |
Tento výsledek potvrzuje dříve uvedené konstatování, že v oblasti vědeckých periodik v užším slova smyslu nemůže být mezi WoS a Scopusem významný rozdíl. Stejná studie ukázala ale výrazně menší citační ohlas v Google Scholar, jen 358 pro stejný soubor.
Jak je uvedeno v předchozí kapitole, počet regionálních/národních titulů pro Českou republiku je sice za období více než 40 let velký, ale zahrnuje i ukončené tituly nebo tituly se změněným názvem a hlavně tituly, kde je celkový počet dokumentů nízký. WoS naproti tomu vykazuje pro r. 2005 jen 25 titulů, kde je jako země vydavatele uvedena Česká republika, ale jen čtyři tituly mají IF vyšší než 1,000 a celkový rozsah je od 1,806 do 0,070. Porovnáme-li tyto údaje s přehledem periodik ve WoS (viz grafy v kap. 1), je nutno konstatovat, že se s tím nemůžeme moc chlubit a že většina našich autorů zřejmě dává přednost zahraničním časopisům. Na druhou stranu obdobný dotaz na sousedící nebo srovnatelné země ukáže, že situace je zhruba srovnatelná (např. Rakousko má téměř shodný počet časopisů ve WoS, tj. 26, ale příznivější rozsah IF od 3,418 do 0,061 s 16 tituly s IF vyšším než 1,000).
Situace v otázce impakt faktorů je celkem jednoduchá. Producent Scopusu jednoznačně prohlašuje, že tento údaj nezpracovává a ani v budoucnu jej zpracovávat a tedy uvádět rovněž nebude. Tomuto prohlášení je možné věřit, stačí se podívat na grafy uvedené v kap. 1, ze kterých je velmi zřetelně vidět, že nelze očekávat, že Scopus náhle objeví neprávem opomíjené velmi citované tituly ve významnějším měřítku.
Individuální případy se pochopitelně vyskytnout mohou a budou i vítány, ale pravděpodobně spíše v oblasti nižších hodnot IF.
Dnes není zásadní problém hodnoty IF nebo obdobné ukazatele vypočítat z dat získatelných v bázi Scopus (a i v jiných bázích, např. v SciFinderu), tj. zjistit počet dokumentů v daném časopise ve dvou po sobě jdoucích letech a obdobně zjistit počty citací v roce následujícím právě jen na tyto soubory. Nebo spočítat jakýkoliv jinak definovaný „impakt faktor“. Rozdíl a pro případné porovnání značná komplikace spočívá v tom, že Science Citation Index má za dlouhá léta vytváření tohoto zdroje ustálenou praxi výběru článků, které jsou skutečně určeny k citování a do výpočtu IF nezahrnuje články jiného zaměření (osobní zprávy, biografie, recenze, popularizační články, zprávy z konferencí a ze spolkové činnosti apod.). Při výpočtech IF z jiných zdrojů by bylo nutné takovou selekci respektovat, aby výsledky byly alespoň nějak srovnatelné. V případě Scopusu, který je principiálně vytvářen automaticky, by to znamenalo buď vložit „ruční“ práci nebo vymyslet filtr, jak odpovídající články vybrat nebo naopak vyloučit.
Bude proto rozumnější na možnost případného budoucího doplnění Scopusu o impakt faktory zapomenout. Na druhé straně ale vzhledem k velkému zájmu o nástroje hodnotící vědecké práce určitě bude motivovat (a nepochybně už v současné době motivuje) nakladatelství Elsevier k tomu, aby přišlo s jinou formou kvantitativního měřítka úspěšnosti dané publikace.
5. Uživatelské rozhraní a vyhledávací funkce
Hodnocení uživatelského rozhraní, tedy design vstupní obrazovky a nabídnuté možnosti práce, je do značné míry individuální záležitost a závisí hodně na předchozích zkušenostech a praxi uživatele. Z mého hlediska považuji vstupní obrazovku za celkem zdařilou, ale v žádném případě není její design nějak výjimečný. Předností je určitě nezahlcení nabídkou mnoha možností, zpravidla pak formátovaných do malých fontů, které je nutné na obrazovce hledat, při současné rozsáhlé nabídce volitelných polí. Také nabídka omezujících parametrů hned na první obrazovce je sympatická.
Méně šťastné je implicitně nastavené zobrazování výsledků, kde není patrné, který odkaz byl prohlédnut jako abstrakt, např. změnou zabarvení apod. Na rozdíl od některých názorů se domnívám, že alternativa „Advanced“ je asi taková, jaká má být, tj. v zásadě poskytuje téměř plnou kontrolu nad formulací dotazu, ovšem s nutností najít si příslušné kódy polí a respektovat určité zásady formulace logického výrazu. Je samozřejmě možné si představit i „pokročilé“ vyhledávání ve formě dotazníku s širokou nabídkou alternativ. Jinak je Advanced Search ve WoS přece jenom „přátelštější“, minimálně v nabídce kódů na stejné obrazovce. Oba zdroje se shodují i v nemožnosti prohlížení rejstříků, které jsou v případě WoS i do jisté míry sjednocovány.
Jiná je ale otázka vyhledávacího algoritmu, resp. kombinace zadání dotazu v jednodušší formě („Basic“) a jeho realizace. Uvážíme-li, že typický příležitostný uživatel se nehodlá zabývat jakýmikoliv pravidly formulace dotazů a tím méně předem studovat manuál (nebo „Help“ či „Search Tips“) a více méně automaticky vloží jeden nebo několik termínů spojených jednoduchými booleovskými operátory nebo ani to ne, pak asi nebude příliš rozumět získaným výsledkům. Kdo si nevšimne návodu (dosti drobným písmem uvedeného) na použití uvozovek v případě, že chceme hledat frázi, dostane asi většinou zbytečně příliš velký počet odkazů. Problémem může být rovněž zásada pořadí operátorů, i když je při práci s databázemi dost běžná. Překvapuje, že ani náznakem není ošetřen chybný spelling a tím spíše synonyma (např. výše uvedený volně přístupný PubMed takovou funkci má, nehledě již na tak dokonalé systémy jako je SciFinder).
Zcela nepochopitelná je praxe neuvádění plných jmen autorů, kde se přistoupilo na uvádění jen iniciál (ale opět nikoliv důsledně jako ve Web of Science), i když v originálním dokumentu, a to i v titulech nakladatelství Elsevier, plná jména autorů uvedena jsou. Nalezení odkazů na frekventovaná jména typu Novák J. vyžaduje velkou trpělivost a v případě některých asijských jmen je to prakticky nemožné.
Oddělení patentů do samostatného souboru je sice vhodné, ale jinak je právě vyhledávání patentových dokumentů evidentně provozováno jiným způsobem. I oficiální stanovisko informuje, že zdrojem patentových informací jsou báze několik velkých patentových úřadů. Tyto zdroje jsou ale volně dostupné a není zřejmé, v čem je jejich zahrnutí do báze Scopus výhodnější kromě evidentního faktu, že dostáváme výsledky v jednom systému. Není dále zřejmé, jak je řešena duplicita dokumentů, ke které logicky musí docházet, např. báze evropského patentového úřadu obsahuje nejenom evropské patenty. Stejně tak zůstává nejasná otázka patentových rodin neboli souvisejících patentů. Soubory nalezených odkazů na patenty jsou zpravidla značně rozsáhlé, přičemž jediným nabídnutým omezujícím nástrojem jsou klíčová slova. Na druhé straně Scopus nalezne více patentů i v případě složitějších dotazů, kdy báze patentových úřadů selhávají. Elsevier produkuje samostatnou patentovou bázi dat, která má konkurovat prakticky jediným v pravém slova smyslu patentovým bázím společnosti DERWENT a s velkou pravděpodobností nějaká souvislost se Scopusem je, ale v tuto chvíli není zřejmá.
6. Příklady rešeršních dotazů
Vzhledem k závažnosti rozhodování o přístupu k bázi dat, jejíž cena nemůže být malá, bylo dále provedeno několik testovacích rešerší s cílem získat alespoň nějaké praktické poznatky o funkčnosti nového zdroje. Je ale nutné velmi důrazně předeslat, že z časových i principiálních důvodů se mohlo jednat jen o ryze orientační a určitě i subjektivně ovlivněný test.
Příklad úzce specializovaného dotazu, ale používajícího jen dva termíny, z nichž jeden má více alternativ:
Problém: dotaz na fluorované dendrimery, nejpravděpodobnější formulace:
Fluorinated dendrimers
Termín dendrimery je vždy stejný, maximálně sg. nebo pl., ale požadavek, aby dendrimery byly fluorované, je možné vyjádřit:
„fluorinated“, „fluorous“, „perfluorinated“, „fluoro“ a asi ještě i dalšími.
Porovnání je komplikováno různými možnostmi formulace dotazu u jednotlivých bází. Tak WoS má celkem jednoduché implicitní pravidlo, kdy uvedení termínů vedle sebe je interpretováno jako požadavek na vyhledání celé fráze, tedy termíny stojící vedle sebe. Operátor AND pak má obvyklý význam. Scopus má pro požadavek vyhledání fráze alternativu umístění kombinace termínů do uvozovek a opominutí tohoto pravidla jsou termíny interpretovány jako požadavek na operátor AND a výsledek je stejný, jako kdybychom tento operátor uvedli. Konečně SciFinder nepoužívá operátory vůbec (i když nejsou zakázány), ale jejich automatickou aplikací na uvedené termíny i včetně předložek, spojek nebo členů vytvoří všechny množiny, které lze z daných termínů vytvořit. Požadavku na vyhledání fráze tak nejlépe odpovídá první vytvořená množina označená jako „As entered“, tedy fráze stojící vedle sebe. Ale i další množina označená jako „Closely associated concept“ je velmi blízká frázi a i některé odkazy v této množině skutečně termíny uvedené jako fráze obsahují.
Scopus | Web of Science | Sci Finder | ||||
Fráze | AND | Fráze | AND | As entered | Close | |
Fluorinated dendrimers | 2 | 27 | 8 | 36 | 5 | 31 |
Fluorous dendrimers | 0 | 14 | 0 | 17 | 0 | 35 |
Perfluorinated dendrimers | 0 | 21 | 0 | 35 | 5 | 22 |
Fluoro dendrimers | 0 | 2 | 0 | 10 | 1 | 203 |
Otázka časového rozsahu nebyla zohledněna, ale jedná se o poměrně nový problém, kde nelze očekávat odkazy v hluboké minulosti. Poslední alternativa u SciFinderu, kde se počet 203 výrazně odchyluje, je způsobena tím, že systém interpretuje termín „fluoro“ jako součást složených termínů, jichž je pochopitelně velké množství.
Z časových důvodů nebylo provedeno porovnání jednotlivých souborů podle jejich obsahu a zjišťován překryv. Z letmého orientačního posouzení (soubory jsou relativně malé) je možné celkem spolehlivě konstatovat, že přes rozdílné počty nalezených odkazů prakticky všechny zdroje splnily svůj úkol, tj. byly nalezeny relevantní odpovědi umožňující získat informace o daném problému za předpokladu, že s výsledky bude dále pracováno a vzájemné citace více méně doplní ty, které nebyly nalezeny v dané bázi dat. Všechny soubory totiž identifikovaly aktivní osoby nebo pracoviště, které se problematikou zabývají.
Z uvedených čísel se zdá, že Scopus našel nejméně odkazů jak oproti Web of Science, tak oproti SciFinderu, s ohledem na předem zdůrazňovaný ryze orientační charakter těchto rešerší není překvapující, že jiné testy zjistí přesný opak, určitě záleží na konkrétním problému a možnostech dotazu. Na druhé straně je patrná značná shoda výsledků, což lze označit jako nesporný úspěch Scopusu, který není vytvářen „ručním“ zpracovávání primárních dokumentů, ale různými metodami z jiných zdrojů nebo elektronických verzí s použitím vyhledávacích algoritmů („Search engines“) a hlavně má nejkratší tradici a tudíž i postupně budované zkušenosti.
Příklad širšího dotazu vyjádřeného několika klíčovými aspekty:
Problém: Je nutné vyhledat informace o technologii výroby chloru elektrolýzou kyseliny chlorovodíkové jako alternativu klasické výroby elektrolýzou chloridu sodného.
V případě programu SciFinder je možné tento problém formulovat jako uzavřenou větu:
„Production or manufacture of chlorine by electrolysis of hydrochloric acid“
Program SciFinder je schopen toto zadání dešifrovat do několika množin odkazů podle klesající relevance, z nichž dvě s nejvyšší relevancí přibližně odpovídají více nebo méně striktním proximitním operátorům a představují tak vlastní výsledek dotazu. Další množiny pak představují použití jednoduchých operátorů AND mezi všemi termíny a postupně jen několika termíny.
Použití výše uvedené formulace poskytne v Chemical Abstracts pomocí programu SciFinder následující soubory:
107 | „Closely associated“ |
513 | „Any where“ (operátor AND) |
Eliminací asijských jazyků a s využitím oborového zařazení do sekcí se soubor 107 odkazů zredukuje na zpracovatelných 55.
Báze dat Web of Science podle očekávání není pro tento typ dotazu vhodná a bylo nutné vyloučit termíny „Production“ nebo „Manufacture“. Pak bylo získáno cca 11 odkazů s vlastní chemickou tematikou, ale bez orientace na průmyslovou oblast.
V případě báze dat Scopus byla testována možnost využití oborově specifických polí, konkrétně pole Chemical Name. Ale jakákoliv formulace dotazu s využitím tohoto pole, tedy např.:
Production AND electrolysis AND chlorine AND „Hydrochloric acid“ v poli Chemical Name (analogicky „chlorine“ v Chemical Name)
... dalo nulový výsledek (!!!)
Kladné výsledky byly získány teprve zařazení obou chemických termínů do obecného pole TITLE-ABS-KEY.
Pak dotaz:
Manufacture OR production AND electrolysis AND chlorine AND „hydrochloric acid“
poskytl 17 odkazů na časopisy a 507 odkazů na patenty. Velký počet patentů je sice zajímavý a orientačně byly v souboru nalezeny relevantní odkazy, ale jeho další zpracování je značně obtížné vzhledem k malému počtu upřesňujících nástrojů.
Závěr:
Asi nejpřekvapivějším závěrem je problematické použití oborově specifických polí, i když nelze z jednoho případu dělat dalekosáhlé závěry. Jednalo se ale o velmi jednoduchý a typický případ. Nalezení alespoň několika odkazů na komplexní dotaz v bázi Scopus oproti WoS potvrzuje širší záběr na straně Scopusu a orientaci na vědeckou oblast v případě Web of Science. Velký počet zpracovávaných zdrojů se ale prakticky nijak neprojevuje.
Pozn.: V rámci tohoto příkladu se ukázaly dva spíše kuriózní případy, které ale dobře ilustrují složitost hodnocení předností té či oné báze dat. Přes malý počet odkazů byl v bázi Scopus nalezen velmi užitečný a téměř klíčový článek, který nebyl nalezen ani v Chemical Abstracts. Důvod je ale celkem prostý, jednalo se o r. 1969, kdy Chemical Abstracts programově opomíjely ekonomicky orientované články. Druhý případ je ještě kurióznější, kdy vysoce relevantní článek byl nalezen v Google Scholar a ani ten nebyl ve Scopusu ani v Chemical Abstracts. V tomto případě se jednalo o jiný koncepční přístup k indexaci daného dokumentu a nedokonalost logiky přiřazování chemických názvů a jejich alternativních tvarů.
7. Statistiky a administrace báze dat Scopus
Přístup ke statistikám využívání Scopusu je velmi jednoduchý a je stejný jako přístup ke statistikám ScienceDirect, které jsou dostupné už dlouhou dobu. Jinak ale není rozumné statistiky příliš přeceňovat, jednak jsou vcelku primitivní a sestávají jen z počtu přístupů, ale hlavně v současné době zatím nic moc nevypovídají, protože jsou nutně ovlivněny různým testováním báze nebo i jen přístupy "ze zvědavosti". Na relevantnější statistiky při standardním rutinním využívání je nutné si zatím počkat. V současné době statistiky hlavně ukazují, zda vůbec někdo existenci přístupu k bázi dat Scopus zaregistroval.
Na druhé straně je překvapující, že se velmi málo zdůrazňuje jeden z vůbec nejdůležitějších aspektů prakticky jakékoliv databáze a báze dat Scopus zvlášť, a to její propojení s primárními zdroji. Scopus jako typická sekundární báze dat neposkytuje konečné informace, ale je jen prostředníkem mezi problémem vyjádřeným rešeršním dotazem a skutečnou konkrétní informací, která by se měla nacházet v primárním dokumentu, nejčastěji v časopiseckém článku nebo patentu. Pracujeme-li dnes se sekundární bází i s primárními dokumenty v jejich elektronické digitální podobě, je zcela logické, že přímé propojení nalezeného odkazu s primárním zdrojem se očekává jako samozřejmost. Jedinou otázkou zůstává, kdo tuto samozřejmou službu zajistí.
Scopus je vybaven poměrně velmi silným nástrojem pro všeobecnou administraci přístupu k jeho službám a aplikací Endeavor [] pro nastavení různých forem vzájemného propojování jak s primárními dokumenty, tak i s jinými zdroji, především katalogy knihoven. Vzhledem k již delší tradici vývoje takových nástrojů v nakladatelství Elsevier stojí za zmínku např. produkt LitLink vyvíjený pro Elsevier dceřinnou společností MDL, který je administrátorským modulem u Scopusu (do značné míry shodný se Science Direct) propracovaným na základě získaných zkušeností a který dnes nabízí asi největší možnosti nastavování přístupů a propojování s dalšími zdroji. To ale zdaleka neznamená, že administrátor zůstává bez práce. Naopak, zatímco u jiných bází dat nemá moc možností, v případě Scopusu má řadu možností pro lokální nastavení v různých podobách.
Pochopitelně administrace Scopusu není triviální záležitostí a investovat do jejího plného využití má smysl jen tehdy, pokud existuje rozumná perspektiva déletrvajícího, pokud už ne přímo trvalého přístupu k této bázi. Nastavovat přístupy k primárním zdrojům pro danou univerzitu je dnes pracná a často poměrně složitá procedura a při perspektivě ukončení testovacího přístupu je možné je realizovat jen jako ověřování možností administrátorského modulu.
8. Cena
Oficiální ceník neexistuje, několik neoficiálních zdrojů se shoduje na rozmezí 20 000 až 120 000 USD ročně, což odpovídá při současném kurzu cca 500 000 až 3 milionům Kč ročního předplatného. Skutečná cena je odvozována od velikosti univerzity, při příležitosti osobní diskuse výše postavený zástupce vydavatelství Elsevier reagoval kladně na argument, že Scopus nepokrývá vůbec humanitní obory a ani obory jako ekonomie, sociologie apod. nejsou příliš silné, v tom smyslu, že počty studentů těchto oborů by bylo možné odečíst od celkových počtů studentů. Vzhledem k narůstajícímu počtu studentů právě v těchto oborech na řadě našich donedávna spíše menších univerzitách by to bylo v každém případě důležité.
Jinak je ale nutné vzít na vědomí, že báze dat Scopus je skutečně univerzální velmi rozsáhlou sekundární bází dat a uvedené cenové rozpětí zhruba odpovídá cenové úrovni, která se za již delší období nastavila pro tento typ bází dat. Zkrátka a dobře, středně velká univerzita bude „oceněna" částkou plus minus 1 milion ročně.
9. Stručné shrnutí
Přes v úvodu zdůrazňovanou krátkodobost a omezenost testování báze dat Scopus byly jednotlivé aspekty natolik různorodé, že určité předběžné závěry je možné učinit. V každém případě se ukazuje, že výsledky rešerší ve Scopusu se nijak mimořádně nevymykají dlouhodobě vytvářenému standardu a nepředstavují zásadní rozdíl především oproti Web of Science, což koneckonců ani nebylo realistické očekávat. V každém případě je důležité vzít v úvahu, že se jedná o velmi rozsáhlý projekt, který nakladatelství Elsevier dlouho připravovalo a bude určitě pokračovat v jeho rozvíjení a zdokonalování.
Je ale nutné si uvědomit, že podobné hodnocení a testování jakékoliv báze dat nikdy nemůže poskytnout jednoznačnou odpověď na otázku, zda do daného zdroje investovat či nikoliv v daném konkrétním případě. Jakmile uvažujeme o vědecké bázi dat, nemůžeme očekávat jednoduchou formu práce s takovou bází, a jakkoliv se producent snaží co nejvíce respektovat „přátelskost" a intuitivní přístup k práci, vždy se ten, kdo takový zdroj chce využívat, s ním musí seznámit, zvyknout si na jeho koncepci a přijmou určité pracovní postupy nebo dokonce "triky". Navíc je už v současné době samozřejmé, že takový zdroj musí být nastaven na místní podmínky a hlavně co nejvíce integrován do celého prostředí síťového přístupu k informacím a hlavně k primárním dokumentům. Jinak řečeno, je nutné se rozhodnout, věnovat maximální péči nastavení zdroje pro danou univerzitu a pak zkrátka bázi využívat.
Zdůrazňování předností či nedostatků té či oné báze zakrývá to nejdůležitější, a to je skutečnost, že Elsevier vytvořil sekundární bázi dat, která je vytvářena z jisté části automaticky s využitím současných informačních technologií a představuje tak určitý protipól klasických bází dat vytvářených intelektuální analýzou dokumentů, které se zákonitě budou dostávat do stále většího finančního tlaku v důsledku narůstajícího objemu lidské práce. Na rozdíl od bází dat vytvářených „ručně“ je automatické generování souboru odkazů více otevřené dalšímu vývoji a je nepochybné, že báze dat Scopus bude dále upravována, vylepšována a zdokonalována. Dalším aspektem v tomto smyslu jsou i otevřené možnosti vzájemných dohod s producenty nejrůznějších primárních zdrojů, které také budou v budoucnu ovlivňovat podobu báze Scopus v pozitivním, ale principiálně i v negativním smyslu. Je proto rozumnější, hledět při posuzování báze dat Scopus spíše do budoucnosti než na momentální otázku pokračování či nepokračování v současné podobě.
Celkem pochopitelný zájem o bázi Scopus se projevuje i řadou dalších hodnotících článků nebo i v pravém slova smyslu publikovaných výsledcích testů. Pro možnost se seznámit i s dalšími názory na tuto bázi jsou uvedeny alespoň dva odkazy, zajímavé tím, že druhý z nich je doplňující zprávou prvého odkazu po jednou roce [DEIS, GOODMAN, 2005 a 2006].
1. Během přípravy tohoto materiálu došlo k zásadní změně v této otázce, kdy nakladatelství Elsevier prodalo aplikaci Endeavor společnosti Francisco Partners, která je vlastníkem společnosti ExLibris. Tato změna se již projevila v současném přístupu k bázi Scopus, kdy možnost administrovat aplikaci Endeavor byla zrušena.
JASCO, Peter. 2005. As we may search – Comparison of major features of the Web of Science, Scopus, and Google Scholar citation-based and citation-enhanced databases. Current Science [online]. November 10, 2005, vol. 89, no. 9 [cit. 2006-12-29]. Dostupné na World Wide Web: <http://www.ias.ac.in/currsci/nov102005/1537.pdf [6]>.
LaGUARDIA, Cheryl. 2005. E-Views and Reviews: Scopus vs. Web of Science. Library Journal [online]. Jan. 15, 2005 [cit. 2006-12-29]. Dostupné na World Wide Web: <http://www.libraryjournal.com/article/CA491154.html%22 [7]>
DEIS, Louise F.; GOODMAN, David. 2005. Web of Science (2004 version) and Scopus. The Charleston Advisor [online]. Jan. 2005, vol. 6, no. 3 [cit. 2006-12-29]. Dostupné na World Wide Web: <http://charlestonco.com/comp.cfm?id=43 [8]>.
DEIS, Louise F.; GOODMAN, David. 2006. Update on Scopus. The Charleston Advisor. Jan. 2006, vol. 7, no. 3 [cit. 2006-12-29]. Dostupné na World Wide Web: <http://www.charlestonco.com/comp.cfm?id=55 [9]>.