Zpráva z mezinárodního semináře Classification & Ontology: Formal approaches and access to knowledge
Ve dnech 19. – 20. září 2011 se konal v prostorách Královské knihovny – Nizozemské národní knihovny v Haagu již třetí seminář, který pořádá v dvouletých intervalech Konsorcium pro mezinárodní desetinné třídění (MDT) s cílem podpořit výzkum a komunikaci v oblasti bibliografických klasifikačních systémů. Tentokrát se ho kromě tvůrců a uživatelů klasifikací z prostředí knihoven v reprezentativním zastoupení zúčastnili i představitelé iniciativy sémantického webu a otevřených propojených dat (linked open data).
Klíčovými tématy letošního semináře se staly modelování a reprezentace klasifikace znalostí (technologické principy a přístupy k definování a modelování pojmů a kategorií, faset, tříd, vlastností, paradigmatických i syntagmatických vztahů a rolí, problematika pravidel pro tvorbu komplexních výrazů), standardy a technologie zpracování klasifikačních dat (datové formáty, formální jazyky a nástroje pro reprezentaci klasifikačních struktur), aplikace a implementace klasifikačních struktur ve formě ontologií a posuzování jejich funkcionality. Samozřejmě nechyběly teoretické úvahy o roli klasifikací znalostí nazírané z pohledu vyhledávání informací, znalostních systémů a sémantického webu. Náplň semináře zajišťoval 26členný programový výbor v čele s Aidou Slavicovou, šéfredaktorkou MDT. Během dvou dní bylo předneseno 21 příspěvků ve formě přednášek následovaných odbornými diskusemi, seskupených do 7 tematických bloků, a byly představeny 2 postery. Zúčastnilo se 141 delegátů z 30 zemí Evropy, Asie, Ameriky a Austrálie. Tištěný sborník ze semináře vydalo vydavatelství Ergon[1]. Zvukové záznamy přednášek a prezentace k jednotlivým příspěvkům jsou dostupné z webových stránek Konsorcia MDT[2].
První den semináře 19. 9. 2011
Seminář zahájili předseda Konsorcia MDT Alan Hopkinson a předsedkyně programového výboru Aida Slavicová, v zastoupení ředitele Nizozemské národní knihovny přivítala účastníky ředitelka finančního a provozního útvaru Els van Eijck van Heslinga.
Úvodní projev přednesl Patrick Hayes z Florida Institute for Human and Machine Cognition (IHMC), USA, jenž působí již několik desetiletí jako profesor informatiky a kognitivních věd na univerzitách v USA a Velké Británii, stál v čele četných organizací a výzkumných projektů v oblasti umělé inteligence, a nyní se účastní aktivit organizací W3C a OASIS, zaměřených na iniciativu sémantického webu a ontologických standardů. Ve svém příspěvku „On beeing the same as. Why something so simple is so hard“ (Co to znamená být stejný. Proč něco tak jednoduchého je tak složité) připomněl na četných konkrétních příkladech logické a sémantické komplikace při řešení základního problému organizace znalostí, tj. určování ekvivalence. Poukázal na rozdíly mezi zjednodušujícím světem logiky a reálným světem, který se pokoušejí zachycovat a modelovat ontologie, a na „problémy“ přirozeného jazyka (synonymie, multifunkčnost, zaměňování intenze a extenze znaku, kontextová závislost významu ad.) V následující diskusi mimo jiné zaznělo, že pokud budeme chtít používat při tvorbě systémů organizace znalostí o realitě logiku, bude třeba původní klasickou logiku přizpůsobit tak, aby odpovídala složitosti, dynamičnosti, vágnosti a „nelogičnosti“ reality.
Tematický blok 1: Role klasifikací a ontologií v prostředí webu (předsedající Dagobert Soergel)
Thomas Baker, který působí jako ředitel pro informatiku DCMI (Dublin Core Metadata Initiative), se ve svém příspěvku věnoval pohledu na systémy organizace znalostí jako na „rozbočovače“ (hubs) sémantického webu („The concepts of knowledge organization systems as hubs in the Web of data“). Upozornil na změnu paradigmatu, kterou přináší sémantický web – od dokumentů, resp. záznamů, se přesouvá pozornost na samotná fakta, tvořící obsah dokumentů. URI, jež představují slovní zásobu RDF výroků, plní pro tato data funkci bibliografických odkazů v poznámkách pod čarou v tradičních textech. Místo statické skupiny znakových řetězců, tvořících dokument, je pak odezvou na dotaz skupina odkazů na data, z nichž lze podle momentálního požadavku zkombinovat existující fyzicky oddělené RDF trojice a vytvořit z nich záznam odpovídající dotazu. Stejně jako v relačních databázích, ani v datovém webu ad hoc propojení datových jednotek do smysluplných celků nebrání technologické překážky, ale sémantické problémy, např. ztráta kontextu při „rozkouskování“ původních dokumentů na datové trojice, nebo změna významu jazykových výrazů v čase.
Guus Schreiber, profesor inteligentních informačních systémů na katedře informatiky Vrije Universiteit v Amsterdamu, vystoupil s příspěvkem, v němž shrnul úlohy a problémy spojené s publikováním řízených slovníků v prostředí webu („Issues in publishing and aligning Web vocabularies“). Za klíčový rys ontologie označil její interoperabilitu a konstatoval, že propojování slovníků by mělo mít v klasifikační komunitě vysokou prioritu.
Dan Brickley (Vrije Universiteit v Amsterdamu), další významná osobnost technologií a standardů sémantického webu v rámci W3C, přednesl příspěvek na téma Klasifikace, spolupráce a datový web („Classification, collaboration and the web of data“). Za nejdůležitější informační sítě současnosti označil hypertextové grafy (propojené dokumenty), sociální grafy (propojení lidé) a „faktové“ grafy složené z RDF výroků (propojená data). Představil možnosti dalšího využití tradičních klasifikací v prostředí datového webu, v němž klasifikace kromě původní funkce obsahové analýzy plní navíc ještě úlohu sémantického propojení distribuovaných dat.
Tematický blok 2: Klasifikace a ontologie o svých vlastních termínech (předsedající Roberto Poli)
Barbara H. Kwasnik (School of Information Studies, Syracuse University, USA) formou dvou případových studií vyzvedla v přednášce Přístupy k zajištění kontextu ve strukturách reprezentace znalostí („Approaches to providing context in knowledge representation structures“) důležitost a způsob doplnění kontextu při určování významu.
Charles van den Heuvel (Huygens ING Institute, Nizozemsko) a Richard Smiraglia (profesor na School of Information Studies, University of Wisconsin, USA, šéfredaktor časopisu Knowledge Organization) se věnovali základním strukturám v univerzu poznání a jejich vzájemnému působení („Interactions between elementary structures in universes of knowledge“). Cílem teoreticko-historické přednášky bylo zdůraznit význam sémantiky v systémech organizace znalostí. Na příkladu Mezinárodního desetinného třídění autoři ukázali možnost spojení top-down přístupu členění univerza poznání s bottom-up postupem fasetového strukturování pojmů. Konstatovali, že každý systém organizace znalostí uplatňuje specifický pohled na univerzum poznání, a multidimenzionality lze dosáhnout propojováním jednotlivých systémů v prostředí sémantického webu.
Emad Khazraee (Drexel University, Philadelphia, USA) v příspěvku nazvaném Demystifikace ontologie („Demystifying ontology“) prezentoval výsledky pokusu o sjednocení různorodých přístupů k chápání významu termínu ontologie v jednom vícedimenzionálním modelu, zachycujícím současně stupeň formalizace, bohatství zachyceného obsahu a hlavní uživatelské kategorie ontologie.
Tematický blok 3: Klasifikace se potkává s webem (předsedající Antoine Isaac)
Daniel Kless (University of Melbourne, Australia) v příspěvku zaměřeném na využití ontologií při zajišťování interoperability systémů organizace znalostí („Interoperability of knowledge organization systems with and through ontologies“) doporučil rozlišovat mezi dvěma typy ontologií: ontologie jako model reality a ontologie jako datový model (např. SKOS, OWL). Tím, že se tradiční systém organizace znalostí převede např. do jazyka OWL, se z něj automaticky nestane ontologie. Poukázal na možnosti vzájemného obohacení tradičních systémů organizace znalostí a ontologií. Ontologie zpravidla postrádají třídu známou v knihovnických klasifikacích jako „ostatní“ a možnosti neurčitého vymezení obsahu třídy, zatímco tradiční systémy by v procesu reengineeringu mohly od ontologií převzít schopnosti usuzování, rozšiřování dotazu a snadnější údržby.
Vincenzo Maltese (DISI – Department of Information Enginnering and Computer Science, Univerzita v Tridentu, Itálie) se ve svém vystoupení rovněž zaměřil na integraci systémů organizace znalostí v prostředí propojených dat („Towards the integration of knowledge organization systems with the linked data cloud“). V souvislosti se vzrůstajícím počtem tradičních systémů organizace znalostí převáděných do formátu propojených dat upozornil na rozdíly mezi tzv. deskripčními ontologiemi, jejichž účelem je reprezentovat realitu, a tzv. klasifikačními ontologiemi. Zatímco instancemi tříd deskripčních ontologií jsou unikátní logická individua (věci), instance tříd klasifikačních ontologií představují množiny dokumentů (o věcech). Popsal z toho vyplývající sémantické problémy a navrhl možnosti jejich řešení transformační konverzí jednotlivých typů ontologií.
Thomas Bandholtz (innoQ Deutschland GmbH) seznámil s integrací klasifikace a řízeného slovníku v propojených datech z oblasti životního prostředí („Classification and reference vocabulary in linked environment data“), spravovaných a zpřístupňovaných německým spolkovým úřadem pro životní prostředí (Umweltbundesamt). Popsal postupy uplatněné při integraci a shrnul její přínosy: spojení jemné granularity řízených slovníků a hrubé granularity klasifikace do jednoho systému s možností využívat přednosti obou podle potřeby; propojení řízeného slovníku s klasifikací umožnilo uspořit náklady na zpracovatelský proces – neindexuje se souběžně ve dvou systémech, pouze se přidělují deskriptory, které se automaticky mapují do propojené klasifikační struktury.
Druhý den semináře 20. 9. 2011
Tematický blok 4: Klasifikace a ontologie ve specifických oborech (předsedající Ia C. McIlwaine)
Andrew Buxton (Konsorcium MDT) v příspěvku Jak si mohou navzájem pomoci ontologie a klasifikace chemikálií („Ontologies and classification of chemicals: can they help each other?“) shrnul specifika chemických oborů z hlediska obsahové analýzy (syntetický charakter, význam grafické komunikace). Provedl srovnání ontologie ChEBI (Chemical Entities of Biological Interest) a příslušné části Mezinárodního desetinného třídění a konstatoval, že oba systémy mají své přednosti a nedostatky. Řešení vidí ve vzájemném propojení (mash-up) klasifikací a ontologií, jež by mohlo zkombinovat přednosti obou.
Wolfram Sperber je editorem matematické bibliografické databáze Zentralblatt MATH a koordinátorem prací na klasifikaci MSC (Mathematical Subject Classification). Ve své přednášce se věnoval problémům obsahové analýzy a klasifikace v matematice („Content analysis and classification in mathematics“) a referoval o současných aktivitách vedoucích k vyšší kompatibilitě klasifikace MSC s ostatními systémy organizace znalostí jejím převodem do formátu SKOS a doplněním řízeného slovníku (tezauru). Představil další náměty na obohacení sémantiky klasifikace MSC – fasetizaci a vytvoření řízeného slovníku matematických vzorců.
Tematický blok 5: Kategorie a vztahy: klíčové prvky ontologií (předsedající Barbara Kwasnik)
Roberto Poli (profesor filozofie a etiky na Univerzitě v Tridentu, Itálie, šéfredaktor časopisu Axiomathes) v přednášce Ontologie jako kategoriální analýza („Ontology as categorial analysis“) demonstroval prospěšnost filozofického přístupu pro praxi ontologického inženýrství. Věnoval se typologii kategorií a provedl detailní analýzu párových kategorií celek–část a jejich vzájemných vztahů.
Dagobert Soergel (University of Buffalo, USA) představil záměr vytvořit ontologii vztahů pro sémantický web („Towards a relation ontology for the Semantic Web“). Navrhl ji realizovat v podobě registru metadat a pro tyto účely zformovat komunitu editorů po vzoru Wikipedie.
Rebecca Green (OCLC) v příspěvku Vztahy v notační hierarchii DDT („Relations in the notational hierarchy of the Dewey Decimal Classification“) seznámila s metodikou a s výsledky projektu, jehož cílem bylo pro 200 náhodně vybraných tříd Deweyho desetinného třídění sémanticky specifikovat jejich hierarchický vztah k nadřazeným třídám, určovaný notací, a posoudit tak možnost převodu této klasifikace do formátu ontologie. Specifikaci vztahů prováděli dva nezávislí odborníci a soustředili se na určení vztahů typu specializace, třída–instance a celek–část. Výsledkem bylo potvrzení proveditelnosti převodu DDT do formalizovanější podoby a vyhodnocení možností využití jazyka OWL při takové transformaci.
Tematický blok 6: Modelování pojmů a struktur v analyticko-syntetických klasifikacích (předsedající Richard Smiraglia)
Ingetraut Dahlbergová, autorka klasifikace ICC (Information Coding Classification), první předsedkyně ISKO a zakladatelka a dlouholetá šéfredaktorka časopisu Knowledge Organization, představila svůj návrh fasetové klasifikace obecných pojmů („A faceted classification of general concepts“). Návrh je založen na analýze vrcholových kategorií a pojmů nejvýznamnějších univerzálních klasifikací (Aristoteles, Ranganathanova dvojtečková klasifikace, ICC, pomocné znaky MDT, Rogetův tezaurus, CIDOC CRM ad.)
Claudio Gnoli (Universita di Pavia, Itálie) v příspěvku Reprezentace strukturních prvků volně tvořené fasetové klasifikace („Representing the structural elements of a freely faceted classification“) informoval o postupech a řešeních uplatněných při převodu fasetové klasifikace ILC (Integrative Levels Classification), založené na principech S. R. Ranganathana a Classification Research Group, do formátu SKOS. Uvedl typologii fasetových klasifikací: 1) klasifikace s pomocnými znaky (DDT), 2) klasické fasetové klasifikace (BC2, současná verze MDT) a 3) volně tvořená fasetová klasifikace, umožňující kombinovat cokoli s čímkoli (ILC). Konstatoval, že SKOS zatím nedisponuje nástroji pro přímé vyjádření faset.
Vanda Broughton (University College London) shrnula význam fasetové analýzy při organizaci informací a představila ji jako nástroj modelování věcných domén a terminologie („Facet analysis as a tool for modelling subject domains and terminologies“). Prezentovala dosavadní výsledky snahy formalizovat 2. vydání Blissova bibliografického třídění (BC2), zaměřené na zpřístupnění této významné klasifikace jednak pro využití při obsahové analýze, jednak jako zdroj terminologie pro ostatní systémy organizace znalostí.
Devika P. Madalli (Indian Statistical Institute, Bangalore, India) se ve svém příspěvku věnovala analyticko–syntetickému přístupu k zvládání různorodosti znalostí v analýze obsahu mediálních sdělení („Analytico synthetic approach for handling knowledge diversity in media content analysis“). Projekt MCA (Media content analysis) je částí projektu LivingKnowledge, začleněného do 7. rámcového výzkumného programu EU. Cílem je vytvoření nástroje pro manuální a poloautomatickou analýzu obsahu velkých korpusů zpráv v různých formátech, dostupných v prostředí webu. Diverzita poznatků obsažených ve zprávách není chápána jako nedostatek, ale naopak jako obohacení znalostní báze. Použité fasety jsou založeny na Laswellově modelu sociální komunikace (who – what – to whom – what channel). Bylo ověřeno, že analyticko–syntetická metoda ve spojení s fasetovou klasifikací umožňují efektivně řešit problémy vyplývající z diverzity zpracovávaného obsahu.
Tematický blok 7: Transformace a rozšiřování klasifikačních systémů (předsedající Gordon Dunsire)
Marcia Lei Zeng (Kent State University, USA) a Joan S. Mitchell (OCLC) ve svém příspěvku představily výsledky studie zaměřené na rozšíření datového modelu řízených slovníků na klasifikační systémy modelováním Deweyho desetinného třídění pomocí FRSAD („Extending models for controlled vocabularies to classification systems: modelling DDC with FRSAD“). Cílem studie bylo ověřit, zda datový model FRSAD, který navazuje na model FRBR doplněním dvou entit – téma (thema) a jméno (nomen), a byl původně vytvořen pro řízené slovníky a tezaury, je možné aplikovat i na klasifikace. Autorky konstatovaly, že pro efektivní uplatnění FRSAD pro klasifikace bude zapotřebí propracovat typologii vzájemných vztahů mezi tématy.
Fran Alexander (BBC Information and Archives, Londýn) a Andy Heather (v letech 2009 – 2011 hlavní programový architekt projektu DMI) seznámili s dosavadními výsledky projektu Digital Media Initiative (DMI), který realizuje BBC s cílem zajistit přístup k archivovaným digitálním zdrojům informací, jež představují zaznamenané odvysílané a prezentované pořady. Věnovali se projektu transformace historické klasifikace na bázi MDT a zejména využití a remodelování sémantických vztahů („Transformation of a legacy UDC–based classification system: exploiting and remodelling semantic relationships“). Záměrem řešitelů bylo sjednotit dosavadní používané systémy organizace znalostí tak, aby se zároveň zachovala jejich sémantická síla.
Závěry semináře
V závěrečné panelové diskusi, kterou moderovala Aida Slavicová a jíž se zúčastnili Patrick Hayes, Dagobert Soergel, Vanda Broughton a Daniel Kless, zazněly tyto názory a shrnující myšlenky:
1) Stěžejním tématem příspěvků na semináři byly teoretické principy, metody a standardy převodu „tradičních“ bibliografických systémů organizace znalostí do formátu otevřených propojených dat, který představuje páteř sémantického webu. Ukazuje se, že v tomto procesu mají co nabídnout obě strany: Bibliografické systémy organizace znalostí mohou sémantickému webu poskytnout tolik žádaný obsah, zatímco technologie sémantického webu přinášejí tradičním systémům nové možnosti formalizace a zdokonalení explicitního vyjádření reprezentovaných pojmů a vztahů.
2) O tom, že tradiční bibliografické a knihovnické systémy organizace znalostí zamířily na web a připojují se tak k iniciativě otevřených propojených dat, již není pochyb. Problémy spojené s publikováním a propojováním jednotlivých systémů organizace znalostí jsou však několikanásobně složitější, než v případě popisných údajů z knihovních katalogů.
3) Ustavující se standardy sémantického webu (RDF, SKOS, OWL) byly často konfrontovány s praktickými úlohami organizace znalostí a bylo konstatováno, že zatím postrádají četné potřebné nástroje k řešení komplikované problematiky organizace (klasifikace) reálných znalostí a informací.
4) Technologie sémantického webu umožnily redefinovat problémy knihovnických klasifikací: už nejde o to, která klasifikace „zvítězí“ nad ostatními a bude používána většinou uživatelů, ale o to, jak vzájemně propojit různé stávající systémy organizace znalostí a umožnit tak uživatelům využívat předností každého z nich.
5) Pravděpodobným mottem příštího semináře se stane problematika vizualizace klasifikací, resp. jejich interface pro prezentaci v prostředí sémantického webu.
- Classification and ontology: formal approaches and access to knowledge: proceedings of the International UDC Seminar, 19-20 September 2011, The Hague, The Netherlands. Edited by Aida Slavic & Edgardo Civallero. Würzburg: Ergon, 2011. 318 s. ISBN 978-3-89913-865-8.
- Classification and ontology: formal approaches and access to knowledge. International UDC Seminar, 19-20 September 2011. Haag: UDC Consortium, ©2010 [cit 2011-10-13]. Dostupné z: http://seminar.udcc.org/2011.
Máme zde 1 komentář
Rozumíte tomu někdo?
Mě z toho jde hlava kolem!