Současnost sémantického webu

0 comments

Anglicky

English abstract:

The Semantic Web isn't new in information science. However, there still are only a few web pages where we can find the semantics today.

Autoři:

Motejlková, Anna [1]

Vydání:

2011, ročník 15, číslo 11 [2]

Rubrika:

Informační technologie a elektronická komunikace [3]

Úvod

Nejvýraznější článek pojednávající o sémantickém webu, jeho tvorbě a využití vyšel již před deseti lety. [1] Na webu je dnes k nalezení mnoho sémantických dokumentů. Nemusíme chodit daleko, abychom nějaký našli. Například Polytematický strukturovaný heslář (PSH) Národní technické knihovny [2] je celý psán v jazyce SKOS a představuje dobrou ukázku využití této technologie. I přes veškerou snahu však dodnes tvoří drtivou část webového obsahu pouze dokumenty, které téměř postrádají sémantiku a pro stroj jsou prakticky nečitelné.

[4]

Logo open source editoru Protége

Pro tvorbu sémantického webu lze využít i některého z dostupných softwarů. V současné době je nejvýraznějším a zároveň nejužívanějším z nich open source editor ontologií Protégé, vyvíjený na Stanford University ve spolupráci s University of Manchester. [3, 4] Protégé si může každý uživatel zdarma stáhnout přímo na stránkách aplikace. Momentálně tento software využívá přes 170 000 registrovaných uživatelů.

Protégé představuje poměrně pohodlné řešení pro vytváření ontologií. V této aplikaci jednoduše vytváříte třídy, zadáváte jim omezení a přidáváte individua. Instance tříd se definují zvlášť, řadí se do tříd a určují se jejich vlastnosti. Protégé ze zadaných informací sám vytváří graf ontologie.

Editor ontologií Protégé kromě vytváření ontologií umožňuje i kontrolu logických chyb pomocí funkce Reasoner. Vytvořenou a zkontrolovanou ontologii je možné uložit hned v několika jazycích sémantického webu. Stejně jako umožňuje Protégé vytvářet nové ontologie, je zde samozřejmě možné i otevírat a editovat ontologie dříve vytvořené.

Software Protégé představuje užitečného pomocníka při vytváření OWL ontologií pro sémantický web. Nevýhodou je však jeho poměrná složitost. Práce s Protégé vyžaduje zpočátku dostatek trpělivosti, než se ho člověk naučí správným způsobem využívat.

Technologie sémantického webu

Sémantický web se velice rychle vyvíjí, avšak ne příliš organizovaně. Co se technologií pro tvorbu sémantického webu týče, existuje dnes kromě poměrně univerzálních technologií [5] ještě veliké množství dalších, užívaných obvykle pro velmi specifické účely. Mezi výrazné patří například SKOS, Dublin Core, FOAF či GeoNames.

SKOS

SKOS (Simple Knowledge Organization System) [6-8] je poměrně běžný datový model používaný pro sdílení a propojování znalostních systémů, jako jsou tezaury, klasifikační schémata nebo řízené hesláře, prostřednictvím webu. SKOS představuje standardizovaný model pro přenos informací mezi různými skupinami či přímo na sémantický web. Skupinami využívajícími SKOS jsou obvykle kromě lidí zabývající se informatikou i knihovníci.

Při psaní SKOS dokumentu můžeme využít URI, která jsou popsána v Tabulce 1 [6, 7, 9].

Tabulka 1: URI používané v jazyce SKOS

URI	Popis
`skos:Concept`	třída umožňující tvrzení, že zdroj je sám konceptem
`skos:ConceptScheme`	umožňuje tvrzení, že zdroj je schématem `schema → rdf:type → skos:ConceptScheme`
`skos:inScheme`	umožňuje tvrzení, že zdroj je schématem `něco → skos:inSchema → schema`
`skos:hasTopConcept`	spojení mezi schématem a konceptem
`skos:topConceptOf`	nejvyšší koncept ve schématu
`skos:altLabel`	alternativní lexikální popisek zdroje
`skos:hiddenLabel`	neviditelný popisek (v případě možného špatného zapsání)
`skos:prefLabel`	preferovaný lexikální popisek zdroje
`skos:notation`	poznámka
`skos:changeNote`	informace pro účely správy a údržby
`skos:definition`	úplné vysvětlení významu pojmu
`skos:editorialNote`	informace poskytující pomoc při administraci z domova
`skos:example`	příklad využití
`skos:historyNote`	užitečné informace pro uživatele systému
`skos:note`	obecná dokumentace pro jakékoli účely
`skos:scopeNote`	částečné informace o plánovaném významu
`skos:broader`	širší pojem
`skos:broaderTransitive`	tranzitivní širší pojem
`skos:narrower`	užší pojem
`skos:narrowerTransitive`	tranzitivní užší pojem
`skos:related`	související pojem
`skos:semanticRelation`	sémantický vztah s
`skos:Collection`	sbírka
`skos:OrderedCollection`	přikázaná sbírka
`skos:member`	člen
`skos:memberList`	seznam členů
`skos:broadMatch`	širší zařazení
`skos:closeMatch`	uzavřené zařazení
`skos:exactMatch`	přesné zařazení
`skos:mappingRelation`	mapovací vztah s
`skos:narrowMatch`	užší zařazení
`skos:relatedMatch`	související zařazení

Technologii SKOS využívají asi nejvíce lidé zabývající se knihovnictvím. Pro účely zápisu databází publikací se SKOS skvěle hodí. Avšak pokud chceme vyjádřit složitější vztahy či různá omezení, není tento jazyk vhodnou volbou.

DCMI

DCMI (Dublin Core Metadata Initiative) [10-12] je standard určený pro popis dokumentů využívaný především v knihovnictví. Účelem DCMI je poskytnout jednoduchý standard, který by usnadnil vyhledávání, sdílení a správu informací.

Dublin Core dostal své jméno podle města Dublin ležícím ve státě Ohio, kde byl v březnu roku 1995 navržen. Původně obsahoval tento standard pouze 15 elementů, které by měly umožňovat dostačující popis dokumentu. Tyto elementy naleznete v Tabulce 2.

Tabulka 2: elementy jazyka DCMI

Element	Popis
`Title`	název zdroje
`Creator`	tvůrce obsahu zdroje
`Subject`	téma obsahu zdroje
`Description`	vysvětlení obsahu zdroje
`Publisher`	vydavatel zodpovědný za zpřístupnění zdroje
`Contributor`	spolupracovník, který přispěl k obsahu zdroje
`Date`	datum události, která se vyskytla během existence zdroje
`Type`	žánr nebo povaha obsahu zdroje
`Format`	fyzické nebo digitální provedení zdroje
`Identifier`	jednoznačný odkaz na zdroj v rámci daného kontextu
`Source`	odkaz na zdroj, ze kterého je popisovaný zdroj odvozen
`Language`	jazyk obsahu zdroje
`Relation`	odkaz na příbuzný zdroj
`Coverage`	rozsah nebo záběr obsahu zdroje
`Rights`	informace o právech vztahujících se k danému zdroji

Časem bylo zjištěno, že pouhých patnáct elementů pro popis zdroje nestačí. Seznam elementů byl tedy postupně rozšiřován a v dnešní době čítá devadesát sedm elementů [11]. I přes značné rozšíření se stále jedná o technologii určenou primárně pro zápis informací o publikacích na webu. Pro tento účel je proto Dublin Core velmi vhodnou volbou. Avšak pro popis čehokoli jiného se příliš nehodí.

FOAF

FOAF (Friend of a Friend) [13,14] je projekt věnovaný propojování lidí a informací prostřednictvím webu.

FOAF propojuje tři typy sítí:

· sociální sítě lidské spolupráce, přátelství a sdružování

· reprezentační sítě, které popisují zjednodušený pohled na nákres vesmíru v reálných pojmech

· informační sítě, které využívají propojování, stejně jako se používá na webu, ke sdílení samostatně publikovaných popisů tohoto sociálně orientovaného světa.

FOAF používá třídy, které jsou uvedeny v Tabulce 3, a vlastnosti, které naleznete v Tabulce 4.

Tabulka 3: Třídy používané v jazyce FOAF

Třída	Popis
`Agent`	agent - například člověk, organizace či skupina
`Document`	dokument
`Group`	skupina jednotlivých agentů
`Image`	obrázek
`LabelProperty`	RDF vlastnost s textovou hodnotou, popisek
`OnlineAccount`	online účet
`OnlineChatAccount`	online účet používaný pro chat
`OnlineEcommerceAccount`	online účet používaný pro elektronické obchodování
`OnlineGamingAccount`	online účet používaný pro hraní her
`Organization`	organizace
`Person`	člověk
`PersonalProfileDocument`	RDF dokument o osobním profilu jeho tvůrce
`Project`	projekt

Tabulka 4: Vlastnosti používané v jazyce FOAF

Vlastnost	Popis
`Accoun`t	účet
`accountName`	název účtu
`accountServiceHomepage`	domovská stránka poskytovatele účtu
`Age`	věk
`aimChatID`	ID pro AIM uživatele
`based_near`	založeno blízko
`Birthday`	narozeniny
`currentProject`	současný projekt
`Depiction`	popis
`Depicts`	popisovaná věc
`dnaChecksum`	kontrolní součet pro DNA něčeho - vtip
`familyName`	příjmení
`family_name`	příjmení
`firstName`	křestní jméno
`Focus`	zaměření
`fundedBy`	organizace financující projekt nebo osobu
`Geekcode`	geekkód uživatele
`Gender`	pohlaví
`givenName`	přidělené jméno
`Givenname`	přidělené jméno
`holdsAccount`	účet uživatele
`Homepage`	domovská stránka
`icqChatID`	ID pro ICQ uživatele
`Img`	obrázek
`Interest`	stránka o tématu, které uživatele zajímá
`isPrimaryTopicOf`	primární téma
`jabberID`	ID pro Jabber
`knows`	známá osoba
`lastName`	příjmení
`logo`	logo
`made`	něco vyrobeno agentem
`maker`	tvůrce
`mbox`	osobní e-mailová schránka
`mbox_sha1sum`	sha1sum URI mailové schránky uživatele
`member`	člen skupiny
`membershipClass`	třída uživatelů, kteří jsou členy nějaké skupiny
`msnChatID`	ID MSN chatu
`myersBriggs`	Myers Briggs (MBTI) osobní klasifikace
`name`	jméno
`nick`	nick
`openid`	OpenIT agenta
`page`	stránka dokumentu
`pastProject`	předešlý projekt
`Phone`	telefon
`Plan`	komentář
`primaryTopic`	hlavní téma stránky nebo dokumentu
`Publications`	odkaz na publikace uživatele
`schoolHomepage`	domovská stránka školy uživatele
`sha1`	sha1sum hash v hexadecimální soustavě
`skypeID`	ID pro Skype uživatele
`Status`	status
`Surname`	příjmení
`Theme`	téma
`Thumbnail`	odvozená miniatura
`Tipjar`	tipjar dokument uživatele popisující prostředky pro platby a odměňování
`Title`	titul uživatele
`Topic`	téma stránky dokumentu
`topic_interest`	něco v zájmu uživatele
`Weblog`	weblog něčeho
`workInfoHomepage`	domovská stránka práce uživatele
`workplaceHomepage`	domovská stránka pracoviště uživatele
`yahooChatID`	ID pro Yahoo

Jazyk FOAF byl vytvořen účelně pro popis uživatelů sociálních sítí, není proto úplně vhodný pro zápisu všech informací o čemkoli jiném. V kombinaci s ostatními technologiemi však představuje skvělého pomocníka, neboť obsahuje definované značky zvlášť určené pro zápis informací o člověku.

GeoNames

GeoNames [15,16] umožňují přidávat geoprostorové sémantické informace na Word Wide Web. Tato databáze zahrnuje v současné době přes osm milionů toponym ze všech států světa. Každé z nich má své vlastní jedinečné URL s odpovídajícím RDF webovým servisem. Ostatní služby popisují vztahy mezi toponymy. GeoNames představují nástroj pro zápis obrovského množství míst na Zemi. Stávají se tak velmi užitečným pomocníkem při vytváření sémantického webu.

Mikroformáty

Jednou z prvních vlaštovek v zadávání sémantiky na webu se stalo používání mikroformátů (zkratka μF). [17,18] Pomocí nich se vkládají metadata a další atributy přímo do (X)HTML kódu, a tím je stroji umožněno porozumět lépe webovému obsahu. Díky mikroformátům můžeme v (X)HTML kódu označovat, a stroji tak zpřístupnit, informace jako adresy, geoprostorové informace, události a podobně. Sémantická označení se vkládají přímo do atributů jednotlivých značek (X)HTML. Použitím mikroformátů tedy neměníme strukturu celého dokumentu, ale pouze strukturu zápisu jedné konkrétní informace, což je důvod pro označení mikro. Mikroformáty představují jakýsi můstek mezi současným World Wide Webem a webem sémantickým.

V současnosti je k dispozici velké množství různých mikroformátů a jejich počet neustále roste. Pro každý specifický okruh informací existuje speciální mikroformát. Například pro zadávání kontaktů, jako je adresa, telefon či e-mail, se používá mikroformát hCard [19], pro zápis událostí je možné použít hCalendar [20], při psaní životopisu se hodí hResume [21] apod.

Stejnou funkci jako mikroformáty plní i další dva standardy pro značení strukturovaných dat: mikrodata [22] a RDFa [23]. Webmasteři si mohou vybrat, který standard při tvorbě webu použijí. Všechny tři jsou dnes podporovány a spousta internetových vyhledávačů s nimi již dokáže pracovat. Na tuto situaci zareagovaly v nedávné době i tři největší současné vyhledávače Google [5], Bing [6] a Yahoo! [7] projektem Schema.org [8]. Jako primární standard bylo ze tří nabízených alternativ vybráno používání mikrodat [24]. Mikrodata poskytují rovnováhu mezi rozšiřitelností RDFa a jednoduchostí mikroformátů. Na webových stránkách schema.org mohou webmasteři nálézt, jak mikrodata správně vkládat do (X)HTML kódu, aby je tyto prohlížeče mohly dobře interpretovat. [25]

Shrnutí

Sémantický web představuje rozšíření a zdokonalení World Wide Webu. Současný web se vesměs skládá pouze z webových dokumentů, které jsou pro stroje téměř nečitelné. Sémantický web přináší revoluční myšlenku vyjádření a zpracování dat za pomoci RDF trojic subjekt - vlastnost - objekt. Nedostižnou výhodou takto zapsaných dat je jejich snadná zpracovatelnost stroji. Myšlenka sémantického webu zahrnuje i představu, že by se jednou mohl vymanit z virtuální říše a stát se součástí našeho fyzického světa. [1]

V současné době představuje asi nevyužívanější a nejrozšířenější technologii sémantického webu OWL. [5] Malou nevýhodou tohoto jazyka je poměrně nepříjemný a složitý způsob zápisu jednotlivých informací. Ta odpadá při použití softwaru pro vytváření OWL ontologií, kde nemusíme data pro sémantický web psát ručně, ale pouze je snadno naklikáme a software poté kód vytvoří za nás. Těchto softwarů existuje již několik a asi nejvýraznějším a nejpoužívanějším z nich je volně dostupný editor ontologií Protégé [3], vyvíjený na Stanford University ve spolupráci s University of Manchester.

Technologie typu OWL mohou být použity pro zápis prakticky jakékoli informace na webu. Mimo takto univerzálních technologií však existují i technologie vhodné pouze pro některé skupiny uživatelů se specifickými požadavky. Mezi tyto technologie patří například SKOS [6] či Dublin Core [10], které jsou využívány hlavně pro zápis knihovnických dat.

V dokumentech pro sémantický web bývají často použity i technologie určené pro vyjádření pouze určitých informací. Takovými jsou například technologie FOAF [13], určená pro popis uživatelů sociálních sítí a poskytující tak speciální třídy a vlastnosti pro vyjádření informací o člověku, či GeoNames [15], jež slouží pro vyjádření geoprostorových sémantických informací.

I přes snahu vývojářů webu není dodnes sémantický web realizován v plném rozsahu. Existují pouze samostatné projekty, které využívají technologií sémantického webu. Jakousi první vlaštovku pro přeměnu současného World Wide Webu na web sémantický představuje používání mikroformátů [17], RDFa [23] a mikrodat [22]. Z nich byly jako primární standard vybrány mikrodata a jak správně je používat mohou webmasteři najít na stránkách schema.org [8]. Tento projekt vznikl kvůli zefektivnění vyhledávání především pomocí třech současně nejvýznamnějších internetových vyhledávačů Google, Bing a Yahoo!.

Použité a citované zdroje:

Berners-Lee, T., J. Hendler, and O. Lassila, The Semantic Web. Scientific American, 2001. 284(5): p. 34-+. ISBN: 0036-8733
Polytematický strukturovaný heslář, Národní technická knihovna. Dostupné z adresy: http://psh.ntkcz.cz/skos/ [9]
The Protégé Ontology Editor and Knowledge Acquisition System. 2011; Dostupné z adresy: http://protege.stanford.edu/ [10]
Knublauch, H., et al., The Protege OWL Plugin: An open development environment for Semantic Web applications, in Semantic Web - Iswc 2004, Proceedings, S.A. McIlraith, D. Plexousakis, and F. VanHarmelen, Editors. 2004. p. 229-243. ISBN: 3-540-23798-4. DOI: 10.1007/978-3-540-30475-3_17
Motejlková, A., Technologie sémantického webu, in Ikaros. 2011. Dostupné z adresy: http://www.ikaros.cz/node/7162 [11]
SKOS Simple Knowledge Organization System, A. Miles and S. Bechhofer, Editors. 2009, W3C. Dostupné z adresy: http://www.w3.org/TR/skos-reference/ [12]
SKOS Core Guide, A. Miles and D. Brickley, Editors. 2005, W3C. Dostupné z adresy: http://www.w3.org/TR/2005/WD-swbp-skos-core-guide-20051102/ [13]
van Assem, M., et al., A method to convert thesauri to SKOS, in Semantic Web: Research and Applications, Proceedings, Y. Sure and J. Domingue, Editors. 2006. p. 95-109. ISBN: 3-540-34544-2. DOI: 10.1007/11762256_10.
SKOS Simple Knowledge Organization System Namespace Document - HTML Variant, A. Miles and S. Bechhofer, Editors. 2009, W3C. Dostupné z adresy: http://www.w3.org/TR/skos-reference/skos.html [14]
DCMI. The Dublin Core® Metadata Initiative. Dostupné z adresy: http://dublincore.org/ [15]
Nič, M. Dublin Core and DCMI Metadata Reference. Dostupné z adresy: http://zvon.org/comp/r/ref-Dublin_core.html [16]
Weibel, S., The Dublin Core: A simple content description model for electronic resources. Bulletin of the American Society for Information Science, 1997. 24(1): p. 9-11. ISBN: 0095-4403. DOI: 10.1002/bult.70
The Friend of a Friend (FOAF) project. Dostupné z adresy: http://www.foaf-project.org/ [17]
Brickley, D. and L. Miller, FOAF Vocabulary Specification 0.98. 2010.
GeoNames. Dostupné z adresy: http://www.geonames.org/ [18]
GeoNames Ontology. Dostupné z adresy: http://www.geonames.org/ontology/documentation.html [19]
microformats. Dostupné z adresy: http://microformats.org/ [20]
Khare, R., Microformats - The next (small) thing on the semantic Web? Ieee Internet Computing, 2006. 10(1): p. 68-75. ISBN: 1089-7801. DOI: 10.1109/mic.2006.13
Çelik, T. and B. Suda. hCard 1.0. Dostupné z adresy: http://microformats.org/wiki/hcard [21]
Çelik, T. and B. Suda. hCalendar 1.0. Dostupné z adresy: http://microformats.org/wiki/hcalendar [22]
King, R. hResume. Dostupné z adresy: http://microformats.org/wiki/hresume [23]
HTML Microdata, I. Hickson, Editor. 2011. Dostupné z adresy: http://www.w3.org/TR/microdata/ [24]
RDFa Primer, B. Adida and M. Birbeck, Editors. 2008. Dostupné z adresy: http://www.w3.org/TR/xhtml-rdfa-primer/ [25]
schema.org FAQ. 2011, google.com. Dostupné z adresy: http://www.google.com/support/webmasters/bin/answer.py?answer=1211158 [26]
Getting started with schema.org. 2011; Dostupné z adresy: http://schema.org/docs/gs.html [27]

Klíčová slova:

WWW stránky [28]

zpracování dat [29]

zpracování textu [30]

sémantický web [31]

Hodnocení: