Sorry, you need to enable JavaScript to visit this website.

BASE: Bielefeldský akademický vyhledávač

Čas nutný k přečtení
14 minut
Již přečteno

BASE: Bielefeldský akademický vyhledávač

1 comments
Anglicky
English title: 
BASE: Bielefeld Academic Search Engine
English abstract: 
Bielefeld Academic Search Engine (BASE) represents a unique and successful search engine that focuses on the area of academic and scholarly sources. Using the OAI-PMH communication protocol BASE harvests metadata from various digital archives and repositories and incorporates them into its own index. Aside from searching and browsing the individual records it offers a wide variety of additional services for both registered and unregistered users. The article provides a brief analysis and evaluation of this search engine and its features.
Autoři: 

Bielefeldský akademický vyhledávač[1] (angl. Bielefeld Academic Search Engine, dále zkratka BASE) v současné době patří k nejkvalitnějším a nejvyužívanějším poskytovatelům služeb nad digitálními archivy, který se primárně soustředí na webové akademické zdroje s otevřeným přístupem. Jeho producentem a provozovatelem je Univerzitní knihovna Bielefeldské univerzity (Universitätsbibliothek, Universität Bielefeld) v Německu.

Dnes již vyhledávač BASE zprostředkuje přístup k 60 815 526 záznamům dokumentů pocházejících z celkem 2 943 zdrojových archivů[2], repozitářů a dalších typů online datových úložišť. Uživatelům služby je u 75 % těchto záznamů k dispozici také plný text.

Vývoj vyhledávače BASE

Historie vyhledávače BASE se začala psát již roku 2001, kdy tým odborníků z Bielefeldské univerzity zahájil v odpovědi na vznik protokolu Inicitativy otevřených archivů OAI-PMH práce na vývoji akademického vyhledávače, který by byl založen právě na uvedeném protokolu.

V říjnu 2003 pak vzniklo strategické partnerství mezi projektovým týmem univerzity a norskou společností FAST (zkratka pro Fast Search & Transfer) sídlící v Oslu, která se specializovala na technologie vyhledávání a dobývání dat[3].

Práce vyvrcholily v září následujícího roku, kdy byl po řadě úspěšných testů oficiálně představen prototyp vyhledávacího softwaru BASE[4]. Přestože na začátku tvořilo jeho index jen něco málo přes půl miliónu záznamů dokumentů pocházející z 15 zdrojových úložišť, v průběhu následujících let služba zaznamenala takřka exponenciální růst. V květnu 2008 bylo indexováno již 10 miliónů dokumentů, o pouhý rok později se tento počet zdvojnásobil. Na sklonku roku 2013 vyhledávač BASE zprostředkovával přístup k 56 721 741 záznamům.

Služba se v průběhu více než deseti let však nevyvíjela jen kvantitativně, nýbrž značného posunu bylo dosaženo i z hlediska kvalitativního. V říjnu 2007 byl software BASE doplněn o možnost vícejazyčného vyhledávání a byl mimo jiné implementován tezaurus Eurovoc. Na začátku roku 2012 byl vyhledávač přizpůsoben pro využití na mobilních platformách (včetně operačních systémů Android, Microsoft Windows Phone i IOS) a byla spuštěna nadstavbová služba zakládání uživatelských účtů[5].

V únoru roku 2011 také provozovatelé připravili přechod k nové verzi vyhledávače vycházejícího z knihovnického vyhledávacího nástroje s otevřeným zdrojovým kódem VuFind[6], který vyvíjí univerzita Villanova v Pensylvánii. VuFind přebírá veškeré funkce klasického OPACu, a navíc implementuje řadu prvků webu 2.0. V současné době vyhledávač BASE používá jak nejnovější verzi VuFind, tak i další sofistikovaný vyhledávací software: Apache Solr 3.1[7].

Dílčí služby

Bielefeldský vyhledávač BASE nabízí dva typy základních a nadstavbových služeb[8] – služby pro uživatele a služby pro správce databází a repozitářů. První uvedená skupina je o poznání početnější a zahrnuje následující služby pro uživatele:

  • Podpora mobilních platforem: Vlastníci chytrých telefonů a mobilních zařízení s operačním systémem Google Android, IOS nebo Windows Phone jsou přesměrováni na mobilní verzi vyhledávacího rozhraní BASE.
  • Propojení na Twitter a blog BASE: Bielefeldská univerzitní knihovna provozuje samostatný kanál na sociální síti Twitter (@BASEsearch), a dává tak uživatelům možnost přímé komunikace. Aktuální informace i všeobecné údaje pak nabízí na blogu; ten je však lokalizován pouze do německého jazyka.
  • Rozhraní pro Zotero: Vyhledávač BASE také nabízí podporu multiplatformnímu citačnímu manažeru Zotero, který vyvíjí Centrum pro historii a nová média (angl. Center for History and New Media) na Univerzitě George Masona. Umožňuje výsledky vyhledávání z BASE exportovat rovnou do tohoto citačního nástroje.
  • Vícejazyčné vyhledávání a vyhledávání za použití synonymních výrazů: Vyhledávač BASE v roce 2007 implementoval tezaurus Eurovoc, který uživatelům umožňuje vyhledat přes 239 000 synonym a překladů pocházejících z celkem 21 jazyků.
  • Vyhledávací pole pro vlastní webové stránky: Uživatelé, kteří provozují vlastní webové stránky, do nich mohou jednoduchým způsobem (vložením krátkého segmentu zdrojového kódu) vyhledávací pole BASE integrovat. Jeho grafickou podobu je možné následně modifikovat pomocí kaskádových stylů CSS.
  • Zásuvný modul pro prohlížeče: Provozovatelé BASE nabízejí možnost instalace zásuvného modulu pro webové prohlížeče Mozilla Firefox a Internet Explorer. Pomocí speciální nástrojové lišty tak uživatelé mohou BASE používat přímo v grafickém rozhraní prohlížeče.

Služby pro správce databází a elektronických repozitářů obsahují:

  • Integrace vyhledávače BASE do lokálních infrastruktur: Správci infrastruktur typu online knihovních katalogů nebo metavyhledávačů mohou prostřednictvím http rozhraní snadno implementovat vyhledávač BASE. Jediným nezbytným požadavkem ze strany Univerzitní knihovny Bielefeldské univerzity je registrace jejich IP adresy.
  • Vlastní validátor OAI-PMH: Webové sídlo BASE disponuje vlastním nástrojem k validaci elektronických repozitářů a úložišť s otevřeným přístupem – BASE OAI-PMH validátorem (též zkratka OVAL).
  • Vlastní OAI-PMH blog: Podobně jako blog BASE i OAI-PMH blog plní primárně informační funkci, respektive komunikaci informací relevantních ke sklízecím a agregačním aktivitám vyhledávače BASE.

Vyhledávání

Vyhledávání informací v rámci vyhledávače BASE lze realizovat dvěma základními způsoby: dotazovým vyhledáváním užívajícím klasické vyhledávací okno a jednoduchým prohlížením.

První z uvedených způsobů lze dále rozdělit na vyhledávání jednoduché a pokročilé. Unikátním rysem jednoduché varianty je našeptávač, který již po zadání tří prvních znaků uživateli nabídne řadu návrhů informačního dotazu. Ten lze následně prostřednictvím rozbalovací nabídky aplikovat ve vyhledávání ve všech polích záznamu dokumentu (angl. Entire document) nebo v dílčích polích: Název, autor a předmět. Velikost výstupu lze před provedením samotného vyhledávání také omezit volbou jedné ze tří možností: vyhledávání podle přesné fráze (tzv. Verbatim search), vyhledávání podle odvozených tvarů slova (tzn. Additional word forms) a vyhledávání podle vícejazyčných synonym (tzv. Eurovoc Thesaurus).

Pokročilá varianta nabízí možnost vyhledávání za použití více selekčních polí (k dispozici je celkem 5 vyhledávacích boxů), které je podobně jako u jednoduchého vyhledávání možné vztáhnout buď ke všem polím záznamu nebo k jednomu či více následujícím: název, autor, předmětová hesla, vydavatel a (část) URL (pokročilejší uživatelé mohou samozřejmě tato omezení prostřednictvím příslušné syntaxe aplikovat rovnou ve vyhledávacím okně jednoduchého vyhledávání). Výsledná množina záznamů může být také omezena na základě výběru provenience zdrojového archivu či repozitáře, roku publikování a typu dokumentu.

Dotazové vyhledávání dokáže také pracovat se základní sadou Booleovských operátorů AND, OR a NOT a pravostranným/levostranným rozšířením termů za použití speciálního znaku *.

Alternativu k dotazovému vyhledávání představuje výše uvedené prohlížení rejstříků. Uživatelům jsou k dispozici dvě možnosti – prohlížení podle typu dokumentu a prohlížení podle Deweyho desetinného třídění. První z uvedených variant nabízí následujících 12 základních typů informačního dokumentu:

  • Články z vědeckých časopisů
  • Zvukové dokumenty
  • Knižní publikace
  • Obrazové dokumenty
  • Mapy
  • Primární data
  • Výzkumné zprávy, studie a přednášky
  • Recenze
  • Partitury
  • Software
  • Disertační práce
  • Audiovizuální dokumenty

Druhý způsob vychází z klasifikace pomocí Deweyho desetinného třídění (dále zkratka DDT) a nabízí možnost jednotlivé záznamy zpřístupnit z každé ze tří úrovní (tříd, podtříd a sekcí) prostřednictvím tlačítka „View records“ (viz obr. 1). Úskalím této varianty prohlížení je však na jedné straně fakt, že třídníkem DDT je v současné době opatřeno jen 9 408 539 záznamů (přibližně 15,7 % celkového počtu záznamů v indexu), na straně druhé pak skutečnost, že klasifikaci vykonává automatický algoritmus[9], což má v některých případech za následek nekorektní zařazení (viz obr. 2).

Ukázka záznamu s korektním třídníkem DDT
Obrázek 1 - Ukázka záznamu s korektním třídníkem DDT

Ukázka záznamu s nekorektním třídníkem DDT
Obrázek 2 - Ukázka záznamu s nekorektním třídníkem DDT

Poté, co systém provede vyhledávání nad indexem metadatové databáze, zobrazí uživateli množinu příslušných záznamů, uspořádaných dle klesající relevance (viz obr. 3). Jejich počet na jednu zobrazenou stranu je standardně 10 – lze však změnit v nastavení pokročilého vyhledávání.

Množinu záznamů lze alternativně uspořádat podle abecedy (jméno autora a název) a data publikování – v obou případech jak vzestupně, tak sestupně. Podobně jako vyhledávač Google i BASE nabízí stručná statistická data týkající se přesného počtu nalezených relevantních záznamů, všech záznamů v indexu a časového intervalu, ve kterém vyhledávací proces proběhl.

S výslednými záznamy může uživatel také pracovat prostřednictvím četných faset údajů (Refine Search Result), které jsou zobrazeny na pravé straně obrazovky. Jsou jimi: autor, předmět, klasifikace DDT, rok publikování, konkrétní zdrojový archiv/repozitář, jazyk dokumentu, typ dokumentu a přístupnost primárního dokumentu.

Uživatelé mají dále možnost zobrazit historii vyhledávání – obsahuje maximálně deset posledních vyhledávání a automaticky se vymazává, jakmile je zavřeno okno prohlížeče, popřípadě aktuální vyhledávání ve formě hyperlinku zaslat na libovolnou e-mailovou adresu. Registrovaným uživatelům je navíc umožněno vyhledávání permanentně ukládat do personalizovaných seznamů.

Metadatové záznamy jsou v plném rozsahu zobrazeny přímo na stránkách výsledků vyhledávání. Název digitálního objektu přitom představuje aktivní prvek s hypertextovým odkazem, který vede na záznam v původním zdrojovém archivu. Součástí jsou kromě sady povinných metadat také rozšířené možnosti: vyhledat v Google Scholar (vyhledá dokument podle názvu pomocí akademického vyhledávače Google Scholar), zaslat na e-mail (pošle konkrétní záznam na uvedenou e-mailovou adresu), exportovat záznam (pomocí různých citačních manažerů), navrhnout/opravit DDT (odkaz uživatelům umožňuje buď nahlásit chybně kategorizovaný záznam, nebo navrhnout jeho zařazení v rámci systému DDT v případě, že kategorizován není[10]) a přidat do oblíbených (možnost tvorby seznamů oblíbených záznamů; pouze pro registrované uživatele).

Náhled množiny výsledků a faset údajů
Obrázek 3 - Náhled množiny výsledků a faset údajů

Metadatový záznam

Vyhledávač BASE používá blíže nespecifikovaný metadatový formát. Jednotlivé prvky metadatového záznamu lze rozdělit na základní, které jsou společné množině všech záznamů v indexu BASE, a doplňkové, jejichž množství se liší v závislosti na tom, ze kterého repozitáře byl záznam sklizen. Proto mezi záznamy v databázi panuje značná nejednotnost.  

Jednotlivé základní prvky představují:

  • Název: název, pod kterým je záznam vyhledatelný; v záznamu je uveden dvakrát: jednou jako aktivní prvek (viz. výše) a jednou jako prostý údaj)
  • URL: hypertextový odkaz na záznam ve zdrojovém archivu/repozitáři
  • Zdroj: zdrojový archiv, repozitář nebo digitální knihovna, ze které záznam pochází

Množina doplňkových prvků zahrnuje:

  • Jmenná autoritní data: osoba nebo korporace primárně odpovědná za dílo
  • Popis: abstrakt nebo redukovaný text popisující obsah primárního dokumentu
  • Přispěvatel (é): další osoby nebo korporace podílející se na procesu tvorby díla
  • Vydavatel: instituce/organizace, jejímž prostřednictvím autor dílo publikoval
  • Rok vydání: časový údaj ve formátu RRRR-MM-DD, popřípadě pouze rok
  • Typ dokumentu: přesně definovaný typ primárního zdroje
  • Jazyk dokumentu: formou zkratky (např. pro angličtinu en, popř. eng – v záznamech je patrná značná nejednotnost)
  • Předmětové termíny: jednoslovné, popřípadě víceslovné termíny vyjadřující obsah díla. Vzhledem k rozmanité indexační praxi primárních archivů a repozitářů jsou pod tímto údajem uváděny jak obyčejná klíčová slova, tak i řízená předmětová hesla.
  • DDT: zařazení v rámci systému Deweyho desetinného třídění
  • Práva: údaje o tom, komu náleží autorská a majetková práva k dokumentu

Uživatelský přístup

Vyhledávač BASE nabízí valnou většinu svých služeb uživatelům zdarma, bez nutnosti registrace. Nezpoplatněné je také vytvoření vlastního uživatelského účtu, které vyžaduje naprosté minimum vstupních údajů (jméno, příjmení, e-mailová adresa, země původu a uživatelské jméno). Výhody oproti neregistrovaným uživatelům v průběhu vyhledávání a zobrazování záznamů sice nenabízí, umožňuje nicméně s nimi dále efektivně pracovat – trvale ukládat jednotlivá vyhledávání (volba Save Search) a metadatové záznamy (volba Add to Favourites). V případě druhé z uvedených funkcí mají uživatelé dokonce možnost je opatřit vlastními klíčovými slovy a poznámkami. Tyto personalizované seznamy také mohou být na základě nastavení soukromé, nebo naopak přístupné všem.

Uživatelé se navíc mohou na rozvoji vyhledávače BASE také aktivně podílet. K tomu slouží odkaz Navrhnout repozitář (angl. Suggest repository), za kterým se skrývá interaktivní formulář, jehož prostřednictvím lze provozovatelům doporučit digitální archiv k indexaci. Nezbytnými podmínkami pro přijetí nového archivu jsou zejména jeho obsahová relevance (musí se jednat o akademický zdroj) a používání protokolu OAI-PMH (otevřenost zdroje může navrhovatel snadno otestovat prostřednictvím výše uvedeného BASE OAI-PMH Validátoru)[11].

Webové rozhraní

Webové rozhraní vyhledávací služby BASE je koncipováno velmi účelně až jednoduše, snadno se v něm tedy zorientují i uživatelé, kteří disponují méně zkušenostmi s online elektronickými zdroji. Hlavní stránka portálu je defaultně nastavená jako rozhraní jednoduchého vyhledávání (viz obr. 4) a ve své horní části nabízí odkazy na vyhledávání pokročilé, nápovědu, režim prohlížení a historii vyhledávání. Dalšími odkazy, nalézajícími se ve spodní části obrazovky, jsou odkazy na seznam indexovaných zdrojů, stručné informace o vyhledávači, kontaktní informace, seznam služeb nabízených BASE, domovské stránky Bielefeldské univerzity a její univerzitní knihovny.

Kompletní webové rozhraní je lokalizováno do německého a anglického jazyka. Jeho funkční součást, tedy vyhledávání, prohlížení a správa uživatelských účtů je navíc přeložena do pěti dalších evropských jazyků: francouzského, španělského, polského, řeckého a ruského.

Hlavní stránka webového rozhraní vyhledávače BASE
Obrázek 4 - Hlavní stránka webového rozhraní vyhledávače BASE

Statistiky

Tabulka č. 1 nabízí dílčí statistické údaje o vyhledávači BASE. K jejich vypracování bylo využito rozhraní pokročilého vyhledávání.


Celkový počet záznamů v indexu

60 815 526

Počet záznamů pocházejících z České republiky

198 250

Převládající typ dokumentu

Články z vědeckých časopisů (12 757 933)

Převládající oborové zaměření

Medicína a zdraví (1 302 157)

Převládající rok publikování dokumentu

2013 (4 179 151)

Převládající jazyk dokumentu

Angličtina (27 413 998)

Počet záznamů dokumentů v českém jazyce

151 676

Zdrojový archiv s největším počtem poskytnutých záznamů

CiteSeer X (3 352 931)

Tabulka 1 - Statistické údaje

Hodnocení

Bielefeldský akademický vyhledávač BASE představuje zdařilý projekt služby působící nad digitálními archivy a repozitáři v akademickém a vědecko-výzkumném prostředí. Jako jeho největší přednosti lze vytknout zejména bohatou nabídku doplňkových služeb zaměřených jak na uživatele-jednotlivce, tak i na správce a provozovatele lokálních archivů a úložišť. Vyhledávač BASE kromě toho vyniká také širokými možnostmi vyhledávání a prohlížení, uživatelsky přívětivě navrženým webovým rozhraním, jehož funkční část je k dispozici až v sedmi evropských jazycích, a důsledně zpracovanou dokumentací. Zdůraznit je také potřeba implementaci Deweyho desetinného třídění, které však na druhou stranu trpí určitými nedostatky z hlediska pokrytí záznamů v databázi (třídníkem je opatřena necelá šestina všech záznamů) a přesnosti oborového zařazení pramenící z automatizovaného mechanismu přidělování třídníků. Dalším drobným nedostatkem je značná nejednotnost v počtu jednotlivých prvků metadatového popisu; ta je však důsledkem různorodosti sklízených digitálních archivů.

Literatura
Poznámky:
  1. BASE – Bielefeld Academic Search Engine [online]. Bielefeld (Germany): Universität Bielefeld, 2004- [cit. 2014-03-31]. Dostupný z: http://www.base-search.net/.
  2. Data jsou aktuální k 13. dubnu 2014.
  3. V dubnu 2008 společnost zakoupil Microsoft a učinil z ní své vývojové centrum (Microsoft Development Center Norway). Na sklonku roku 2009 pak její část prodal softwarové firmě Rocket Software.
  4. LÖSCH, M. A Multidisciplinary Search Engine for Scientific Open Access Documents. In: DEPPING, Ralf a Christiane SUTHAUS, ed. Elektronische Schriftenreihe der Universitäts- und Stadtbibliothek Köln [online]. Bielefeld: Universität Bielefeld, Universitätbibliothek, 2011 [cit. 2014-03-31]. Dostupný z: http://pub.uni-bielefeld.de/luur/download?func=downloadFile&recordOId=2083906&fileOId=2272791.
  5. Bielefeld Academic Search Engine. In: Wikipedia: Die freie Enzyklopädie [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- , zuletzt geändert am 28. November 2013 [cit. 2014-03-31]. Dostupný z: http://de.wikipedia.org/wiki/Bielefeld_Academic_Search_Engine.
  6. OPÁLKOVÁ, Markéta. OPACy nové generace II – VIRGObeta a VuFind. Ikaros [online]. 2009, roč. 13, č. 11 [cit. 2014-04-15]. urn:nbn:cz:ik‐005811. ISSN 1212-5075. Dostupný z: http://www.ikaros.cz/node/5811.
  7. Open Access. Online [online]. May/June 2011, vol. 35, issue 3 [cit. 2014-04-12]. ISSN 0146-5422. Dostupný komerčně z: http://web.ebscohost.com.
  8. About BASE: Services. In: BASE – Bielefeld Academic Search Engine [online]. Bielefeld (Germany): Universität Bielefeld, 2004 – [cit. 2014-03-31]. Dostupný z: http://www.base-search.net/about/en/about_develop.php?menu=2.
  9. LÖSCH, Mathias et al. Building a DDC-annotated Corpus from OAI-Metadata. Journal of Digital Information [online]. 2011, vol. 12, no. 2 [cit. 2014-04-12]. ISSN 1368-7506. Dostupný z: http://pub.uni-bielefeld.de/luur/download?func=downloadFile&recordOId=2144216&fileOId=2535615.
  10. Bezprostřední dopad však na kategorizaci záznamů v rámci BASE tyto možnosti nemají.
  11. PIEPER, Dirk a Friedrich SUMMAN. Bielefeld Academic Search Engine (BASE): An end-user oriented institutional repository search service. Library Hi Tech. 2006, vol. 24, no. 4, s. 614-619. ISSN 0737-8831. Dostupný také z: http://pub.uni-bielefeld.de/luur/download?func=downloadFile&recordOId=1680979&fileOId=2535619.
Hodnocení: 
Zatím žádné hodnocení
LOCHMAN, Martin. BASE: Bielefeldský akademický vyhledávač. Ikaros [online]. 2014, ročník 18, číslo 4 [cit. 2016-10-01]. urn:nbn:cz:ik-14216. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/14216

automaticky generované reklamy

Máme zde 1 komentář

Dobrý den,
děkujeme za zajímavý článek.
Malá poznámka k odstavci „Kompletní webové rozhraní je lokalizováno do německého a anglického jazyka.
Jeho funkční součást, tedy vyhledávání, prohlížení a správa uživatelských účtů je navíc přeložena do pěti dalších evropských jazyků: francouzského, španělského, polského, řeckého a ruského“
Pořád tam vidím pouze ukrajinštinu - ruštinu stále postrádám.