Jak lze prakticky využít Polytematický strukturovaný heslář pro věcný popis elektronických zdrojů
Polytematický strukturovaný heslář pro věcné pořádání webových zdrojů
Logo Polytematického strukturovaného hesláře
Stejně jako všechny systémy organizace znalostí, je jejich zástupce Polytematický strukturovaný heslář (PSH) primárně určen k předmětové indexaci dokumentů tak, aby mohly být později efektivněji vyhledány. Systémy organizace znalostí obohacují informační fondy o strukturu organizující jeho prvky (informační zdroje) podle jejich obsahu.
Věcné pořádání prochází v souvislosti s rozšiřováním technologických možností a způsobů použití internetu mnoha změnami. Ty zacházejí tak daleko, že je na pochybách, zda se přece jenom nelze bez procesů předmětové indexace prováděných lidmi obejít (REGLI, 2009). V některých případech se zdá, že intelektuální indexace může být nahrazena automatickými metodami analýzy textů v přirozeném jazyce, jaké používají například současné webové vyhledávače (Google, Bing), které dosahují při vyhledávání informačních zdrojů poměrně dobrých výsledků.
Dochází k decentralizaci organizace znalostí. S novými přístupy, jako je tagování, získávají právo na předmětovou organizaci informací široké masy uživatelů webu. Na rozdíl od situace, kdy organizaci informací ovládá úzká skupina profesionálů (knihovníků), se přesouváme do doby, kdy strukturu informačních fondů formují běžní uživatelé. Stejně jako se rozšiřuje počet lidí organizujících informace, tak by se měl rozšířit počet uživatelů systémů organizace znalostí. Ty byly obvykle vytvořeny pouze s ohledem na úzkou skupinu uživatelů - profesionálních informačních pracovníků -, a proto mohou být pro běžného uživatele nepřívětivé a složité. Pokud mají tedy klasické systémy organizace znalostí v tomto prostředí pokračovat, musí být jednoduché a intuitivní pro použití každým uživatelem.
Díky extenzivní digitalizaci informačních zdrojů také směřujeme k reformě toho, jakým způsobem lze používat výrazy "data" a "metadata". Protože jsou u digitalizovaných dokumentů dostupné plné texty, lze původní data (tj. plný text) použít jako metadata k vyhledávání (např. podle citátu z knihy lze najít jejího autora). Jako "data" lze označovat to, co hledáme, jako "metadata" to, pomocí čehož hledáme (WEINBERGER, 2007). To se týká také předmětových metadat, která poskytuje PSH.
PSH je nyní zveřejněn standardním způsobem v sémantickém formátu Simple Knowledge Organisation System [5] (SKOS) v souladu s principy linked data (BERNERS-LEE, 2009) a zavedenými nejlepšími praktikami, což otevírá širokou škálu nových možností jeho využití. Ty se zakládají zejména na tom, že SKOS je jednoduchý, strojově zpracovatelný formát, který vyznačuje data sémantickým způsobem tak, že je jsou aplikace schopné jednoznačně interpretovat. Vzhledem k používání globálně unikátních URI (Uniform Resource Identifier) jako identifikátorů je možné na hesla PSH jednoduše odkazovat a vytvářet vazby s dalšími informačními zdroji.
Tyto nové možnosti využití PSH směřují samozřejmě také do oblasti předmětové indexace. Jmenovitě jde o drobná vylepšení a zjednodušení pro intelektuální indexaci a lepší východiska pro automatickou (poloautomatickou) indexaci.
Intelektuální indexace
Generování úryvků metadat
Prvním krokem, který musí často tvůrce metadat překonat, je leckdy obtížný metadatový formát. Z toho důvodu vznikají různé generátory metadat, které poskytují jednodušší formulářové rozhraní k tvorbě správně zformovaných úryvků (tzv. snippets) v daném metadatovém formátu. Rozšířené jsou zejména pro formát Dublin Core [1]. V českém prostředí je to například generátor na stránkách WebArchivu [6].
Specificky předmětová metadata lze získat také na stránkách prohlížení PSH [7]. Tímto způsobem je možné vytvořit tagy ve formátech Dublin Core [8] nebo CommonTag [9] v zápisu RDF v atributech, které lze jednoduše vložit do webových stránek k dosažení jejich sémantického popisu. Velice podobné kousky metadat k zahrnutí do HTML lze nalézt v poměrně novém předmětovém registru Subj3ct [10], který PSH zařadil do svého indexu (příklad [11]).
Automatická indexace
V případě, že je intelektuální úsilí spojené s volbou indexačních výrazů z větší části nahrazeno aplikací, mluvíme o automatické indexaci. Metody, jimiž je vytvářen selekční obraz dokumentu, zahrnují například extrakci termínů a klíčových slov, automatické přiřazování selekčních výrazů či tagů, textovou klasifikaci a kategorizaci nebo indexování podle obecného tématu. Naprostá většina aplikací pro automatické indexování se z technických důvodů omezuje výhradně na dokumenty textové povahy.
V souvislosti s automatickým indexováním byl PSH vyzkoušen v modulu BibClassify CDS Invenio a nástroji Maui Indexer. Převod PSH do formátu SKOS výrazně usnadnil jeho použití v těchto nástrojích, jelikož oba preferují systémy organizace znalostí právě v této podobě. SKOS zajišťuje, že tyto aplikace mohou lépe využít bohaté struktury a vazeb, které jsou přítomny v PSH.
CDS Invenio BibClassify
BibClassify je jedním z modulů digitálního repozitáře CDS Invenio [12]. Tento software bude použit v rámci řešení projektu Národního úložiště šedé literatury [13], který probíhá v Národní technické knihovně [14].
Jde o poměrně jednoduchý nástroj, který provádí převážně statistickou analýzu textu předloženého k automatické indexaci. Podle vývojářů BibClassify jsou proto jeho výsledky výrazně závislé na kvalitě použitého tezauru nebo předmětového hesláře [2]. Mezi významné nevýhody modulu BibClassify patří jeho nízká rychlost, která je zvláště znát, pokud se pokusíme indexovat rozsáhlejší texty.
Protože BibClassify nepoužívá žádné metody strojového učení a nesnaží se o umělou inteligenci, můžou se mezi automaticky přiřazenými termíny vyskytovat různé odchylky. Proto je vhodné jej používat převážně pro návrh možných indexačních výrazů, z nichž potom lidský uživatel jednoduše odstraní ty, které zjevně nevyjadřují téma popisovaného dokumentu.
Maui Indexer
Maui Indexer byl vyvinut Olenou Medelyan [15] v rámci doktorského studia na University of Waikato [16] na Novém Zélandu. Představuje víceúčelový nástroj, který slouží k automatické indexaci textových dokumentů pomocí "extrakce klíčových slov a frází, automatického tagování, přiřazování termínů z řízeného hesláře, předmětového indexování a tematického indexování s termíny získanými z Wikipedie." [3] K tomu používá pokročilejší postupy, které zahrnují metody analýzy přirozeného jazyka a strojového učení.
Přiřazování hesel z řízeného slovníku funguje tak, že je nejprve vytvořen model, který na vstupu vyžaduje plné texty intelektuálně opatřené termíny z použitého slovníku, na jejichž základě se Maui Indexer naučí správnému indexování. Pokud je tento model k dispozici, lze začít zpracovávat nové dokumenty, které nejsou indexovány. Maui Indexer jim podle analýzy jejich obsahu a vztahů a pravděpodobností zachycených v modelu přiřadí co možná nejvhodnější indexační výrazy pocházející z daného slovníku.
Kvůli nutnosti nejprve vybudovat model je přístup Maui Indexeru závislý na dostupnosti plných textů již indexovaných pomocí termínů řízeného slovníku, jenž máme v plánu k automatické indexace používat. Pokud však tato data jsou k dispozici v dostatečném objemu, může Maui Indexer dosahovat velice dobrých výsledků (což lze ilustrovat na demonstrativních příkladech [17] , které jsou k dispozici na webových stránkách Maui Indexeru).
Použití metadat
Činností, kterou změny provedené na Polytematickém strukturovaném hesláři rovněž zjednodušily, je vlastní použití metadat a jejich navázání k popisovanému dokumentu. Díky způsobu, jakým je PSH k dispozici (zejména popis dat prostřednictvím RDF), lze s ním vytvořená předmětová metadata zapisovat mnoha různými způsoby, které značně rozšiřují doménu možných použití těchto metadat. Tyto zápisy pak lze zahrnout do mnoha různých formátů (HTML, XML, PDF, RDF).
Jak již bylo zmíněno v úvodu, metadata a data nemusí být striktně oddělena a mohou se vyskytovat v jediném datovém souboru, který zahrnuje jak obsah dokumentu, tak jeho popis prostřednictvím metadat. Tento způsob publikování dokumentů opatřených zároveň svým vlastním popisem umožňuje například formát Adobe Extensible Metadata Platform (XMP) a zápis RDF v atributech (RDFa).
Adobe eXtensible Metadata Platform
Formát Extensible Metadata Platform [18] vyvinutý firmou Adobe slouží jako rámec pro obohacování dokumentů (typicky vytvořených pomocí aplikací Adobe) o metadata. Jde zejména o soubory typu PDF, ale také obrázky nebo animace uložené pomocí software Adobe. V současnosti se XMP užívá převážně pro zachycení autora díla, jeho technických aspektů nebo pro určení licenčních podmínek. XMP lze ale vzhledem k jeho rozšiřitelnosti aplikovat také k vyjádření předmětového popisu dokumentu. V podstatě lze pomocí XMP k souboru přidat jakákoli metadata, která představují správně utvořené RDF.
V praxi lze tato metadata vytvářet například pomocí vizuálního rozhraní přítomného v produktu Adobe Acrobat Professional [19] v oblasti úprav vlastností dokumentu. Zde lze zadat také předmětová hesla, která jsou interně reprezentována jako Dublin Core. Nabídka možných údajů, které lze k dokumentu v nabízeném formuláři vyplnit, není rozsáhlá, ale Adobe Acrobat poskytuje možnost připojit k souboru jakýkoli XMP dokument, takže pokročilejší uživatelé nejsou nijak omezeni.
Kromě aplikace Adobe Acrobat lze metadata v XMP do PDF souborů dostávat také zdarma pomocí balíčků, které jsou dostupné pro systém k profesionálnímu sázení dokumentů LaTeX, jenž patří mezi svobodný software s otevřeným zdrojovým kódem. Vzhledem k tomu, že je tento způsob vytváření dokumentů ve vědecké komunitě poměrně rozšířený, lze předpokládat, že zde bude také poptávka po strukturovaném předmětovém popisu, který XMP umožňuje. Jedná se o balíčky hyperxmp [20], který dovoluje vytvořit přiložená XMP data vyplněním několika polí, nebo xmpincl [21], jenž slouží k přímému vkládání předem vytvořených XMP souborů do PDF dokumentů.
RDFa
Pro webové dokumenty (ve formátu (X)HTML) slouží další z možných způsobů zápisu dat ve formátu RDF - RDF v atributech [22] (RDFa). Pro vnoření metadat do webového dokumentu se zde používá prostor atributů HTML elementů, což umožňuje efektivní propojení dat a metadat. Tímto způsobem není nijak narušena vizuální prezentace webové stránky pro koncového uživatele, ale zároveň mohou být poskytnutá metadata z dokumentu jednoduše extrahována [4].
RDFa obsáhne všechny metadatové formáty, které jsou vyjádřeny prostřednictví RDF. Rozhraní k prohlížení PSH nabízí RDFa úryvky obsahující Dublin Core nebo Common Tag. Dublin Core [8] je pravděpodobně nejrozšířenějším způsobem, kterým jsou předmětová metadata na webu reprezentována. Common Tag [9] patří k novějšímu úsilí o sjednocení způsobů zápisů tagů, které si ale rychle získalo podporu mnoha významných organizací působících na webu (Yahoo, Zemanta, Metaweb). RDFa nevyžaduje žádné speciální nástroje pro jeho zahrnutí do HTML, lze jej jednoduše zkopírovat ze stránek prohlížení PSH a v textovém editoru vložit do webového dokumentu.
Dublin Core
Common Tag
Závěrem
V současnosti vznikají jak nové technologie, tak způsoby jejich využívání. Tento článek se pokusil uvést několik příkladů použití Polytematického strukturovaného hesláře s novými technologiemi podporujícími organizaci znalostí. PSH jako zástupce klasických systémů organizace znalostí lze nyní poměrně dobře integrovat s novými technologiemi. Otázkou zůstává, nakolik bude součástí budoucích sociálních mechanismů sloužících k organizaci informací. Jeho další rozvoj bude bezpochyby směřovat k tomu, aby i v nových podmínkách, ať už budou jakékoli, našel uplatnění.
- http://www.ukoln.ac.uk/cgi-bin/dcdot.pl [25]
http://soap.stanford.edu/plugins/dublincore/ [26] - http://invenio-demo.cern.ch/help/admin/bibclassify-admin-guide [27]
- http://code.google.com/p/maui-indexer [28]
- K tomu slouží například RDFa Distiller (http://www.w3.org/2007/08/pyRdfa/ [29] ).
- BERNERS-LEE, Tim. Linked data : design issues [online]. Published 2006-07-27. Last change 2009-06-18 [cit. 2009-06-10]. Dostupný z WWW: <http://www.w3.org/DesignIssue/LinkedData.html [30]>.
- BibClassify admin guide [online]. Last updated: 2008-03-12 [cit. 2009-11-11]. Dostupný z WWW: <http://invenio-demo.cern.ch/help/admin/bibclassify-admin-guide [27] >.
- MEDELYAN, Olena. Human-competitive automatic topic indexing. Waikato, 2009. 214 s. Disertační práce (PhD.). University of Waikato, Department of computer science, 2009.
- MEDELYAN, Olena. Useful web resources related to automatic topic indexing [online]. July 13, 2009 [cit. 2009-11-11]. Dostupný z WWW: <http://maui-indexer.blogspot.com/2009/07/useful-web-resources-related-to.html [31] >.
- PAKIN, Scott. The hyperxmp package [online]. May 21, 2006 [cit. 2009-11-19]. Dostupný z WWW: <http://www.ctan.org/tex-archive/macros/latex/contrib/hyperxmp/hyperxmp.pdf [32] >.
- REGLI, Theresa. The death of taxonomies, revisited [online]. November 13, 2009 [cit. 2009-11-19]. Dostupný z WWW: <http://www.cmswatch.com/Trends/1737-Death-of-Taxonomies-Revisited [33] >.
- WEINBERGER, David. Everything is miscellaneous [online]. 2007 [cit. 2009-11-11]. Google Tech Talks. Dostupný z WWW: <http://video.google.com/videoplay?docid=2159021324062223592 [34] >.
- XMP specification, part 1 : data and serialization model [online]. Adobe Systems. 2008 [cit. 2009-11-11]. Dostupný z WWW: <http://www.adobe.com/devnet/xmp/pdfs/XMPSpecificationPart1.pdf [35] >.