Analýza webových odkazů a její použití v akademickém prostředí
Úvod
Získat užitečné informace analýzou hypertextových odkazů mezi webovými stránkami na internetu se snaží výzkumníci v různých oborech. Zajímavých výsledků bylo dosaženo v oblasti vyhledávání informací, zejména při zlepšování výkonu internetových vyhledávačů. V informační vědě vychází řada studií z vnější podoby mezi odkazy a citacemi - v obou případech jde o určité jednosměrné spojení mezi dokumenty zpravidla různých autorů. Podstatným rozdílem je, že odkazy spojují daleko širší spektrum druhů dokumentů než citace a jsou vytvářeny i z mnoha jiných důvodů. Tvorba odkazů je také daleko méně formální záležitostí.
Význam odkazů
Odkaz má při analýze teoreticky hodnotu tehdy, pokud pomocí něho autor zdrojové stránky vyjadřuje uznání autorovi cílové stránky. Stránka, na kterou směřuje více odkazů, je pak považována za kvalitnější. Ve skutečnosti však nejsou některé odkazy pro analýzu použitelné - jsou vytvořeny z technologických důvodů - nehodnotí, ani nepředstavují žádnou komunikaci. Nerelevantní odkazy nejsou zásadní problém, ale jejich poměr nesmí být příliš velký.
Pro účely vyhledávání informací je vhodné rozlišovat významnost jednotlivých odkazů a přidělovat vyšší váhy odkazům z důležitějších stránek (tak jak to dělá Google). Pro účely hodnocení webových sídel by bylo naopak ideální, kdyby všechny odkazy měly stejnou hodnotu, byly vytvářeny individuálně a nezávisle, lidmi a se stejným posouzením kvality informací v cílové stránce. Ta by měla být vytvořena vlastníkem sídla, nebo někým s těsným vztahem k němu.
Odkazy, které neodpovídají těmto ideálním teoretickým předpokladům, jsou označovány jako anomálie. Představují významný problém, protože mohou zastínit ostatní typy odkazů. Jedním ze zdrojů anomálií jsou odkazy uvnitř sídla. Jejich hlavním účelem je navigace a často jsou automaticky vkládány na každou stránku v podobě navigační lišty. Anomálií jsou též sídla provozovaná jinými organizacemi než tvůrci obsahu (např. zrcadla velkých sídel mohou přitahovat mnoho odkazů). I některé z vnějších odkazů mohou být vytvářeny automaticky -například na stránku software, který byl použit při tvorbě sídla.
Tyto odkazy je nutné buďto manuálně odfiltrovat, nebo je počítat způsobem, který jejich vliv zmírní - odkazy uvnitř sídla se neberou v úvahu a vnější odkazy se počítají na vyšším stupni agregace. Na webu se totiž obtížně definuje jednotka, na kterou odkazy směřují. Existují zde typy dokumentů známé z tištěné podoby (časopisy, knihy, sborníky z konferencí), ale i soubory stránek, které tištěný ekvivalent nemají a těžko se jako dokumenty klasifikují (FAQ, archivy e-mailů). Za dokument tak lze pak považovat jak malé webové sídlo, část většího sídla nebo jednotlivé soubory. Pro počítání odkazů je přitom důležitý vztah mezi dokumenty a stránkami - například kniha může být na webu umístěna jako jedna obrovská stránka nebo tisíce vzájemně propojených malých stránek.
Aby se omezil vliv anomálií na úrovni stránek, mohou být stránky seskupeny do logických dokumentů podle URL. Existují čtyři hlavní úrovně analýzy nazývané jako alternativní modely dokumentu (ADM). Pro účely sběru odkazů se potom za dokument považuje
- každý jednotlivý soubor
- všechny soubory ve stejném adresáři - URL zkráceno k poslednímu lomítku
- všechny soubory se stejným jménem domény
- všechny soubory náležející k definovanému webovému sídlu
V literatuře je význam odkazů interpretován různě, obvykle bývá odvozován z analogií s citační analýzou. Interpretace se může se značně lišit i podle kontextu (např. zda jde o vztah mezi určitou množinou akademických nebo komerčních sídel). Odkazy jsou interpretovány jako:
- míra vlivu, viditelnost
- důvěra, autoritativnost
- hodnota, kvalita
- podobnost tématu, tematická blízkost
- mezinárodní informační toky
- vztahy v síti organizací
- obchodní kontakty
Postup při analýze odkazů z pohledu informační vědy [23]
Po stanovení hlavních cílů výzkumu je vhodné provést pilotní studii, při které se přesvědčíme, že existuje dostatek odkazů pro dosažení smysluplných výsledků konzistentních s cílem výzkumu. Následně vybereme vhodná webová sídla nebo stránky, které nám mohou dát odpověď na naši výzkumnou otázku. Poté přistoupíme k vlastnímu sběru dat o odkazech. K tomu je možné využít komerční vyhledávače nebo vlastní specializovaný software. Data se pokusíme očistit od anomálií a zvolíme vhodnou úroveň agregace pro výpočty.
Výsledky výpočtů je nutné validovat hodnocením korelace mezi počtem odkazů a jiným zdrojem dat známé hodnoty a významu. Takový zdroj by měl souviset s cílem výzkumu. V případě univerzit to mohou být systémy národního hodnocení kvality výzkumu (RAE ve Velké Británii), počet získaných grantů nebo počet získaných citací podle ISI, v případě firem počet přihlášených patentů. Doporučuje se validovat interpretaci výsledků klasifikováním náhodného vzorku odkazů a získat tak přehled o různých typech odkazů a jejich zastoupení v souboru.
Analýza odkazů v akademickém prostředí
Převážná většina publikovaných studií se zaměřuje na prostředí, které má k prostředí citační analýzy nejblíže - webová sídla univerzit a jejich součástí. Webová sídla univerzit přinášejí široké spektrum informací, které sice také souvisejí s výzkumem, ale plní odlišné funkce než články v odborných časopisech. Bar-Ilan [3] rozděluje stránky na akademických sídlech do následujících kategorií (u každé jsou uvedeny příklady stránek, které do příslušné kategorie spadají):
- POPIS ENTIT - OSOBY, FYZICKÉ A LOGICKÉ JEDNOTKY, UDÁLOSTI, SLUŽBY
- osobní stránky, životopisy, publikační činnost
- domovské stránky univerzit, výzkumných skupin
- popisy kurzů, cíle projektů
- program konference, seznam účastníků semináře
- provozní doba knihovny, předplacené časopisy, popis databází
- OBSAH VYTVOŘENÝ ENTITAMI
- příspěvky (článek, prezentace, abstrakt, obsah projektu, zadání úkolu)
- kompilace (seznamy zdrojů, bibliografie)
- POPIS A OBSAH
- program konference s abstrakty
- osobní stránka se seznamem oblíbených sídel
- STRUKTURÁLNÍ INFORMACE
- navigace, obsah (seznam kapitol), poznámka o copyrightu
Z důvodu lepší srovnatelnosti výsledků jsou odkazy většinou zkoumány pouze v rámci jednoho státu, i když se objevily i studie na mezinárodní úrovni. Pokud jde o úroveň agregace, bere se za jednotku zkoumání celá univerzita nebo její součásti (ústavy). V druhém případě se lze zaměřit na odkazy mezi ústavy v jednom oboru nebo analyzovat vztahy mezi různými disciplínami.
Pro interpretaci odkazů je důležité pochopit, proč vlastně autoři odkazy vytvářejí. Důvody pro tvorbu odkazů lze zjistit za základě analýzy zdrojové a cílové stránky nebo dotazem autorovi. Wilkinson, Harries, Thelwall a Price [28] zvolili v prostředí britských univerzit první způsob a identifikovali následující cíle odkazů:
- Informace pro studenty 25 %
- Zdroje pro podporu výzkumu 23 %
- Knihovny a elektronické časopisy 21 %
- Rekreace 9 %
- Autor stránky nebo sponzor 7 %
- Ústavy příbuzného zaměření 7 %
- Partneři ve výzkumu 3 %
- Studijní materiály 2 %
- Turistické informace 1 %
- Citace 1 %
Kim [6] zjišťoval motivaci pro tvorbu odkazů v odborných elektronických článcích na základě rozhovorů s jejich autory. Výsledkem je 19 různých druhů motivace rozdělených do třech základních skupin - vědecká, technologická a společenská motivace. Více než 70 % odkazů bylo výsledkem vzájemného působení více druhů motivací. Číslo v závorce udává, kolik procent z celkového počtu odkazů na základě příslušné motivace vzniklo, písmeno označuje existenci přibližně srovnatelné motivace pro vytváření citací.
- VĚDECKÁ MOTIVACE
- Doplňkové nebo základní informace (43 %, A)
- Příklad, model, případ (38 %, A)
- Podpora nebo potvrzení (26 %, A)
- Obrázek, mapa, diagram (5 %, N)
- Historie (11 %, A)
- Definice pojmu (10 %, A)
- Základy myšlenky, pojmy, teorie (8 %, A)
- Srovnání s vlastní prací (7 %, A)
- Současný stav výzkumu (7 %, A)
- Data nebo statistiky (6 %, A)
- Příprava studie (8 %, A)
- Metodologie (2 %, A)
- SPOLEČENSKÁ MOTIVACE
- Upozornit na zdroj (29 %, A)
- Uznání autorovi nebo instituci (21 %, A)
- Vynikající autor / instituce oboru (6 %, A)
- Demonstrace znalosti důležitého nebo nového zdroje v dané oblasti (3 %, A)
- Doporučení editora (1 %, A)
- TECHNOLOGICKÁ MOTIVACE
- Snadný a okamžitý přístup (40 %, N)
- Využití technologie (13 %, N)
Na základě inspirace z citační analýzy byly v případě univerzit vysloveny hypotézy, že počet odkazů na sídlo univerzity může měřit adekvátní využívání možností elektronického publikování na internetu, efektivitu propagace činností univerzity, celkovou popularitu univerzity nebo dokonce její výkonnost v oblasti výzkumu. Hypotéza, že by na stránky lepších (lépe hodnocených) vědců směřovalo více odkazů, však nebyla potvrzena [20]. Zjištěné korelace mezi počtem odkazů a výzkumnou aktivitou jsou vysvětlovány tak, že lepší vědci produkují více stránek. Uvažuje se také vliv finančních prostředků
Prokázány byly následující korelace:
- V PŘÍPADĚ ODKAZŮ NA STRÁNKY UNIVERZIT
- V PŘÍPADĚ ODKAZŮ NA STRÁNKY ÚSTAVŮ
- v oblasti počítačové vědy ve Velké Británii - korelace s RAE [7]
- v oblasti chemie v USA - korelace s počtem citací podle ISI [10]
- v oblasti fyziky, chemie a biologie ve Velké Británii - korelace s RAE, v Austrálii - korelace s počtem citací podle ISI, a v Kanadě - korelace s udělenými granty [23]
- v oblasti psychologie v USA - korelace s počtem citací podle ISI [10]
Závěrem
Analýza odkazů v akademickém prostředí může sice přinést užitečné informace , ale není srovnatelná s citační analýzou. Odkazy mají určitý vztah k výzkumu, ale jádro komunikace vědeckých informací zasahují pouze v nepatrné míře (podíl odkazů srovnatelných s citacemi je odhadován na 1 %). Přestože mohou mít souvislost s výzkumnou činností univerzit nebo jejich součástí, nelze je považovat za přímý indikátor kvality výzkumu.
Literatura
- Bar-Ilan, J. A microscopic link analysis of academic institutions within a country - the case of Israel. Scientometrics, 2004, roč. 59, č. 3, s. 391-405.
- Bar-Ilan, J. Self-linking and self-linked rates of academic institutions on the Web. Scientometrics, 2004, roč. 59, č. 1, s. 29-41.
- Bar-Ilan, J. What do we know about links and linking? A framework for studying links in academic environments. Information Processing & Management, 2005, roč. 41, č. 4, s. 973-986.
- Harries, G., Wilkinson, D., Price, L., Fairclough, R., Thelwall, M. Hyperlinks as a data source for science mapping. Journal of Information Science, 2004, roč. 30, č. 5, s. 436-447.
- Chu, H., He, S., Thelwall, M. Library and information science schools in Canada and USA: A webometric perspective. Journal of Education for Library and Information Science, 2002, roč. 43, č. 2, s. 110-125.
- Kim, H. J. Motivations for hyperlinking in scholarly electronic articles: a quantitative study. Journal of the American Society for Information Science and Technology, 2000, roč. 51, č. 10, s. 887-899.
- Li ,X., Thelwall, M., Musgrove, P. , Wilkinson, D. The relationship between the WIFs or inlinks of Computer Science Departments in UK and their RAE ratings or research productivities in 2001. Scientometrics, 2003, roč. 57, č. 2, s. 239-255.
- Li ,X., Thelwall, M., Wilkinson, D., Musgrove, P. National and international university departmental Web site interlinking. Part 1: Validation of departmental link analysis. Scientometrics, 2005, roč. 64, č. 2, s. 151-185.
- Smith, A., Thelwall, M. Web Impact Factors for Australasian universities. Scientometrics, 2002, roč. 54, č. 3, s. 363-380.
- Tang, R., Thelwall, M. Disciplinary differences in US academic departmental Web site interlinking. Library and Information Science Research, 2004, roč. 25, č. 4, s. 437-458.
- Tang, R., Thelwall, M. Patterns of national and international Web inlinks to US academic departments: an analysis of disciplinary variations. Scientometrics, 2004, roč. 60, č. 3, s. 475-485.
- Thelwall, M, Harries, G., Wilkinson, D. Why do Web sites from different academic subjects interlink? Journal of Information Science, 2003, roč 29, č. 6, s. 453-471.
- Thelwall, M. A Research and institutional size based model for national university Web site interlinking. Journal of Documentation, 2002, roč. 58, č. 6, s. 683-694.
- Thelwall, M. An initial exploration of the link relationship between UK university Web sites. ASLIB Proceedings, 2002, roč. 54, č. 2, s. 118-126.
- Thelwall, M., Harries, G. The connection between the research of a university and counts of links to its pages: an investigation based upon a classification of the relationships of pages to the research of the host university. Journal of the American Society for Information Science and Technology, 2003, roč. 54, č. 7, s. 594-602.
- Thelwall, M. Conceptualizing documentation on the Web: an evaluation of different heuristic-based models for counting links between university Web sites. Journal of the American Society for Information Science and Technology, 2002, roč. 53, č. 12, s. 995-1005.
- Thelwall, M. Evidence for the existence of geographic trends in university Web site interlinking. Journal of Documentation, 2002, roč. 58, č. 5, s. 563-574.
- Thelwall, M., Harries, G. Can Personal Web Pages that Link to Universities Yield Information about the Wider Dissemination of Research? Journal of Information Science, 2004, roč 30, č. 3, s. 240-253.
- Thelwall, M. The top 100 linked pages on UK university web sites: high inlink counts are not usually associated with quality scholarly content. Journal of Information Science, 2002, roč. 28, č. 6, s. 483-491.
- Thelwall, M., Harries, G. Do better scholars` Web publications have significantly higher online impact? Journal of the American Society for Information Science and Technology, 2004, roč. 55, č. 2, s. 149-159.
- Thelwall, M., Smith, A. Interlinking between Asia-Pacific University Web sites. Scientometrics, 2002, roč. 55, č. 3, s. 363-376.
- Thelwall, M., Tang, R. Disciplinary and linguistic considerations for academic Web linking: an exploratory hyperlink mediated study with Mainland China and Taiwan. Scientometrics, 2003, roč. 58, č. 1, s. 153-179.
- Thelwall, M. Link analysis : an information science approach. Amsterdam : Elsevier, 2004. xii, 269 s. ISBN 0-12-088553-0.
- Thelwall, M.. What is this link doing here? Beginning a fine-grained process of identifying reasons for academic hyperlink creation. Information Research [online]. 2003, roč. 8. č. 3, paper no 151 [cit. 2005-6-25]. Dostupný z WWW: <http://informationr.net/ir/8-3/paper151.html>.
- Thomas, O., Willett, P. Webometric analysis of departments of librarianship and information science. Journal of Information Science, 2000 ,roč. 26, č. 6, s. 421-428.
- Vaughan, L., Thelwall, M. A modeling approach to uncover hyperlink patterns: the case of Canadian universities. Information Processing & Management, 2005, roč. 41, č. 2, s. 347-359.
- Vaughan, L., Thelwall, M. Scholarly use of the Web: What are the key inducers of links to journal Web sites?. Journal of the American Society for Information Science and Technology, 2003, roč. 54, č. 1, s. 29-38.
- Wilkinson, D., Harries, G., Thelwall, M., Price, L. Motivations for academic Web site interlinking: Evidence for the Web as a novel source of information on informal scholarly communication. Journal of Information Science, 2003, roč. 29, č. 1, s. 49-56.
Máme zde 1 komentář
Co je "odkaz" ?
Především je třeba začít definicí, co je odkaz. Jakékoliv <a href="https://ikaros.cz/.."> ?
Tedy třeba i na anonymní FTP, nebo jen takové, které by zaindexoval Google?
Berou se také třeba odkazy na fulltextové záznamy v nějakém informačním systému a co chybné odkazy - jak mnoho vědeckých pracovníků neví že zpětné a normílné lomítko je ve WWW pokaždé něco jiného.
A kapitolou samou pro sebe jsou pak odkazy jen na úvodné WWW-stránku, protože na serveru se používají rámce ne javascripty a dotyčný nevěděl, co jak odkaz napsat?
Mám totiž dost silný pocit, že jednotlivé práce si každý všímají úplně odlišných typů odkazů.