Projekt MESUR - využití uživatelských dat k hodnocení vědecké komunikace
„Současný systém digitální vědecké komunikace je víceméně kopií jejího papírového předchůdce“ prohlašuje Herbert van den Sompel, který společně s Johanem Bollenem z vyhlášené Los Alamos National Laboratory stojí za projektem MESUR, který byl spuštěn v r. 2006. Připomeňme, že Los Alamos National Laboratory se proslavila mj. rozvojem interoperability a standardů.
O projektu
Projekt MESUR, MEtrics from Scholarly Usage of Resources, který byl určen na léta 2006-2008, se cíleně zaměřil na vývoj nových metrik pro hodnocení vědecké komunikace, a to na základě tzv. usage based-statistics, tedy dat, která vypovídají o využívání zdrojů uživateli. MESUR se pokusil nalézt a definovat nejvhodnější způsoby měření a určit nikoli jednu, ale soubor metrik, které by dokázaly charakterizovat takto rozsáhlý soubor dat. Projekt mapuje strukturu vědecké komunikace pomocí sémantického modelu a rozsáhlého sémantického úložiště napojeného na širokou škálu bibliografických, citačních a uživatelských dat z různých zdrojů.
Pojem vědecké komunikace
Ještě než se pustíme do vysvětlení samotného projektu, podívejme se nejprve, co je myšleno pod pojmem vědecká komunikace. Pojem vědecké komunikace, v anglickém jazyce scholarly communication, vychází z konceptu nahlížení vědeckého světa přes prostředky komunikace ve vědě, nejčastěji přes výsledky vědy a výzkumu. Vědecký svět si pak lze představit jako síť těchto výstupů (odborné literatury a jiných výsledků), ve kterém se vědci pohybují. Jejich pohyb zanechává stopy, a to jak v podobě citací, tak v podobě dat o využití zdrojů, počet návštěv, cesty apod. Souhrn těchto jevů tvoří právě soubor vědecké komunikace.
Přínosy a negativa využití uživatelských dat
Projekt MESUR se zaměřil na kvantitativní aspekty vědecké komunikace. Během vědecké komunikace jsou data stahována, čtena či jinak používána. Analýza takových dat dává možnost jiným způsobem a mnohem důkladněji nahlédnout na vědecký ohlas než pouhá citační data. V první řadě míra užití dokumentu naznačuje možnost budoucí citace, je tak včasnějším indikátorem vědeckého ohlasu. Navíc užití lze zachycovat pro větší škálu dokumentů, není tolik omezeno přísnou excerpční politikou či dalšími limity. Data také mohou být získána z více zdrojů: nakladatelských služeb, institucionálních repozitářů a dalších hybridních služeb (např. SFX aj.).
Zpracování uživatelských dat se doposud nedostalo ve vědeckém světě patřičného uznání, a to z mnoha důvodů. Mezi ty hlavní patří na úrovni získávání dat otázka soukromí uživatelů či nedostatek standardů pro sběr a agregaci těchto dat. Analýza dat je také závislá na vzorku uživatelů, odtud pak však nemůžeme usuzovat na celou vědeckou komunikaci, neboť vždy máme k dispozici pouze omezenou komunitu. Nedůvěru dále posiluje nedostatek dat, která by propojovala data uživatelská s dalšími zdroji; data nelze efektivně validovat proti jiné databázi. Otázky se taktéž vznáší nad adekvátností jednotlivých indikátorů a metrik a jejich využití k různým účelům.
Postup projektu
Projekt si za svůj cíl nejprve stanovil vypracovat model dat pomocí ontologie. Následně bylo potřeba vytvořit referenční sadu dat agregací existujících dostupných dat do sémantické sítě, v níž budou samotná struktura sítě a vlastnosti detailně charakterizovány. V momentě, kdy budou k dispozici svým způsobem homogenní data, přejde se k definici metrik a následně jejich validaci a zjištění vzájemných korelací.
Co se týče ontologie, v dané chvíli nebyla k dispozici žádná, která by formálně dostatečně popisovala a zachycovala vztahy mezi uživatelskými, bibliografickými a citačními daty. V projektu byla vybrána ontologie OWL, která nejlépe odpovídala záměrům. Základní struktura ontologie vymezuje tři hlavní abstraktní entity: činitel (autor, uživatel, instituce), dokument (článek, časopis, sborník z konference, knihy, atd.) a souvislost (užití, citace, metrika, spoluautorství). Pojem „souvislost“ je zásadní, dále je rozdělen na dva abstraktní typy, na událost a stav, publikace díla je pak událostí, zatímco existující citace stavem. Současná ontologie je k nalezení na adrese http://www.mesur.org/schemas/2007-01/mesur/ [4].
Obr. 1: Pojem „souvislost“ v ontologii MESUR
Zdroj: http://www.mesur.org/ [6]
Velmi náročnou částí projektu bylo samotné zpracování a agregace dat. Projekt od svého začátku počítal se zpracováním velkého objemu dat, nejméně 50 mil. dokumentů včetně patřičných metadat a referencí, 70 mil. uživatelů včetně autorů, 1 mld. uživatelských událostí a 500 mil. citací. Mezi instituce, které dodaly data, se zařadily konsorcia univerzitních knihoven, poskytovatelé knihovnických služeb na národní úrovni a mezinárodní nakladatelé. Data prošla po předání v patřičnému formátu filtrací a deduplikací. Nezbytné je data validovat a zjistit míru šumu v datech, poté se přikročí k charakteristice jednotlivých prvků sémantické sítě, čímž se dosáhne popisu a definice vlastností procesu vědecké komunikace.
Návrh jednotlivých metrik bere v potaz zejména to, zda a jak tato metrika reflektuje vědecký dopad. Z pohledu validity je nutné položit otázku, zda metrika indikuje to, co zamýšlí, tedy vědecký dopad, z pohledu sémantiky je pak potřeba určit, jaký aspekt či náhled dopadu metrika popisuje. Do metrik budou zahrnuty i již existující indikátory, jako je Reading Factor, Usage Impact Factor, ISI Journal Impact Factor. V plánu bylo také vytvoření hybridních metrik složené kombinací jiných metrik. Všechny metriky měly projít ověřením pomocí již osvědčených indikátorů vědeckého ohlasu (impakt faktor, COUNTER statistics [7]). Výsledkem projektu tak budou definice metrik a pokynů k nim. Doufejme, že budou brzy zveřejněny tak, aby se jimi mohli inspirovat i další zájemci o problematiku.
Závěrem
Hledání alternativních cest – nebo lépe, nikoliv alternativních, ale nových cest – k hodnocení vědy je tématem, kterému je věnováno mnoho pozornosti. Věda čím dál více souvisí s rozdělování finančních zdrojů právě na základě kvantitativního hodnocení. Bohužel debata k hodnocení vědy je v půli cesty, nikdo ještě dnes nedokáže říci, jak alespoň trochu objektivně vědu hodnotit. Cesta, kterou se vydal J. Bollen s H. van den Sompelem, je rozhodně novým větrem do plachet, zvláště uvážíme-li, že některé vědní oblasti rezignovaly na klasickou „impakt-faktorovou“ komunikaci (fyzika) a že pro valnou většinu společenských věd tato metrika není adekvátní vůbec. Právě u společenských věd by tento postup mohl mít úspěch. Uvážíme-li existující národní rámec excelence společně se seznamem tzv. „pozitivních“ časopisů, dostáváme v podstatě umělé prostředí k hodnocení vědy, ve kterém není zdaleka tak důležité sledovat mezinárodní ohlas. Jestliže bychom byli schopni stejným způsobem definovat souhrn úložišť, která nám poskytnou adekvátní data, nic pak nebrání společenské vědy měřit tímto způsobem. Vytvoření a analýza takový zdrojů by jitě byla velmi náročná, nicméně i tak by mohla přinést z jistého pohledu část objektivních dat o výstupech a obecně vědecké komunikaci v ČR.
- MESUR: MEtrics from Scholarly Usage of Resources [online]. Los Alamos (NM, USA) : Research Laboratory [2009-02-27]. Dostupné na World Wide Web: <http://www.mesur.org/ [6]>.
- MESUR For Measure: MEtrics from Scholarly Usage of Resources. Scholarship 2.0: An Idea Whose Time Has Come [online]. December 30, 2008 [2009-02-27]. Dostupné na World Wide Web: <http://scholarship20.blogspot.com/2008/12/mesur-for-measure-metrics-from.html [8]>.