Jak zhodnotit statistická data o využívání odborných informací (Herbert Van de Sompel)
Herbert Van de Sompel z Národní laboratoře v Los Alamos představil projekt MESUR, na kterém spolupracoval pod vedením Johanna Bollena. Projekt MESUR s podtitulem smysluplnosti a užitečnosti statistik odborných uživatelů probíhal dva roky. Projekt měl dva hlavní směry: 1) využití uživatelských statistik a následné vytvoření metodik na základě těchto dat; 2) vytvoření metrik, které budou respektovat celé síťové okolí. Uživatelská data byla získávána z co nejšiřších zdrojů, aby se vymanila z úzkéhu pohledu Thomson Reuters. Do projektu tak byla začleněna data, která vytvářeli všichni uživatelé, nejen odborníci, ale také ti, kteří se v tomto prostoru pohybují a tato data také využívají. Projekt čelil mnoha základním otázkám, např.: co vlastně statistická uživatelská data jsou, jaké jsou typy těchto dat atd. Tato data dosud nemají žádné standardy. Van de Sompel představil koncept sítí a na sítích založených metrik. Každý uzel sítě má uzly, které mu předcházejí a které z něj vycházejí. Obyčejné statistiky se dotýkají jen tohoto vztahu, v síťovém pojetí nás však v tomto kontextu zajímají také vztahy mezi dalšími uzly - typickou implementací je např. PageRank. Pokud spočítáme PageRank metodou hodnoty citační sítě, vychází zcela jiná čísla, než pokud uvažujeme tradičním způsobem.
Projekt MESUR se v první fázi zaměřil na vytvoření rozsáhlé sady dat a vytvoření referenční mřížky (matrix). Data byla vyžádána od velkých vydavatelů, agregátorů i institucí. Aby bylo možné vytvořit mřížku, zaznamenávají se tzv. clickstreamy, tj. údaje o tom, jak se uživatel pohybuje v síti. V rámci analýzy bylo získáno asi 350 milionů uživatelských událostí, které obsáhly téměř 100 000 časopisů. Síť byla z těchto dat vygenerována na úrovni propojení časopisů, váha časopisu vzrůstala v případě, že byl při jednom připojení (session) uživatele jeden časopis použit vícekrát. Tyto vztahy byly vizualizovány jako mapa vědy [4], ve které je každý bod jedním časopisem a jeho velikost určuje využívanost uživateli. Tato mapa vědy byla poprvé vygenerována nikoliv na základě citací, ale na základě uživatelských dat, což je výrazným posunem. Pokud se tato mapa srovná s mapou vygenerovanou z databáze Journal Citation Reports, ukážou se dost rozdílné výsledky. Pokud se výsledky z JCR porovnají s různými síťovými metrikami aplikovanými na JCR uvažovanou jako síť, jsou výsledky síťových metrik z JCR bližší výsledkům z uživatelských dat než podle metody výpočtu impakt faktoru. Byla provedena korelace těchto metrik, ze které vychází, že metriky derivované z uživatelských dat vytvářejí blízký klastr, metriky založené na síťových metrikách další. Nejvzdálenějším klastrem od obou jsou pak citační metriky.
Van de Sompel upozornil na služby [5], které byly vytvořeny na základě výsledků tohoto projektu a jednotlivých metrik, jako je interaktivní srovnávání časopisů podle jednotlivých metrik či interaktivní mapa vědy. Metoda MESUR ukázala, že uživatelská data mohou být použita ke zjištění ohlasu vědecké práce, ale samozřejmě je stále ve vývoji a zůstává také mnoho nezodpovězených otázek.
Prezentace H. Van de Sompela je k dispozici na serveru mesur.org [6] v sekci Slideshow.
(text konferenčního příspěvku [7])
(lv)