Přehled rámce pro výměnu a opětovné využití digitálních objektů v otevřených archivech OAI-ORE (Herbert Van de Sompel)

0 comments

Autoři:

Ikaros, redakce

Vydání:

2009, ročník 13, číslo 5/2

Rubrika:

Výměna a opětovné využití digitálních objektů (workshop)

Workshop (resp. přednášku) Herberta Van de Sompela (Los Alamos National Laboratory, USA) uvedl Filip Vojtášek ze společnosti Albertina icome Praha s. r. o. Sám přednášející doplnil, že pochází z Belgie, avšak již přibližně deset let působí v USA.

Projekt OAI-ORE (Open Archives Initiative Object Reuse and Exchange), na jehož výsledky byl workshop zaměřen, byl zahájen přibližně před dvěma a půl rokem; první verze specifikací pochází z října 2008. Na zmíněném dvouletém projektu se finančně podílela řada institucí (The Andrew W. Mellon Foundation, The Coalition for Networked Information, Joint Systems Committee, Microsoft Corporation a The National Science Foundation) a spolupracovaly na něm Technický výbor ORE (ORE Technical Committee) a Kontaktní skupina ORE (ORE Liaison Group). Personálně jsou výbor a skupiny složeny z osob s různým profesním zaměření, což vhodně rezonuje s cílem projektu – vytvořit pokud možno co nejreprezentativnější řešení.

Projekt byl věnován řešení velmi jednoduchého problému – agregaci webových zdrojů. Ta byla vyřešena prostřednictvím tzv. map zdrojů (Resource Maps). Jedná se o strojem čitelný dokument, který je umístěn na webu a který obsahuje identifikátor URI a popis agregace. Hlavní motivací pro vytvoření agregací představuje e-věda (e-Science) – typická vědecká publikace není již pouze příspěvek (paper), ale jde o složené objekty, které sestávají z několika zdrojů (např. videozáznam, datová sada, model, simulace apod.). Všechny tyto zdroje dohromady tvoří logickou jednotku, přičemž každý ze zdrojů má své URI. Na jednotlivé zdroje bývá odkazováno z úvodních stránek (tzv. splash pages), které jsou určeny pro uživatele – člověka. Sumarizují složené objekty tak, že jim mohou lidé porozumět. URI těchto úvodních stránek je pak někdy používáno jako reprezentant celé agregace. Zatímco člověk této prezentaci porozumí a zorientuje se v jednotlivých zdrojích (např. zjistí, že jsou k dispozici různé verze příspěvku, pozná, že některé z dalších příbuzných zdrojů jsou odkazovány, ale již netvoří součást složeného objektu), stroje touto schopností nedisponují, nezjistí, že se jedná o logickou jednotku (či entitu). Proto je potřeba, aby logická jednotka měla také svou identitu; musí být zřejmé, co je částí této jednotky a co nikoliv.

Přednášející upozornil, že s agregacemi se setkáváme prakticky všude – jako příklad nám mohou posloužit např. sady (množiny) obrázků na Flickru (včetně skupin stejných obrázků, které se liší svým rozlišením). Rovněž nejjednodušší forma vědecké komunikace – příspěvek – má typicky úvodní stránku, pak bývá k dispozici PDF s plným textem a bibliografický záznam příspěvku.

V rámci projektu OAI-ORE byl uplatněn přístup odlišný od metod uplatňovaných dříve, kdy byl důraz kladen na interoperabilitu digitálních knihoven a jednalo se o přístupy založené na službách. Ty však dostatečně nereflektovaly způsob, jak funguje web. Součástí webové architektury není představa repozitáře, hlavní roli hrají zdroje, jejich URI a reprezentace a také odkazy propojující dva zdroje. V projektu OAI-ORE se proto rozhodli definovat interoperabilitu na základě prvků webové architektury; díky tomu je nabídnuté řešení interoperabilní se všemi druhy zdrojů.

Stavebními kameny řešení jsou webová architektura (Web Architecture), sémantický web (Semantic Web) a rámec pro popis zdrojů (Resource Description Framework, RDF), dále propojená data (Linked Data) a „pěkná“ URI (Cool URIs) pro sémantický web.

Pokud se týká webové architektury, je nutné zmínit zdroj (resource), ten je identifikován pomocí URI; aktuální stav zdroje je to, co vidíme např. v prohlížeči při prohlížení URI. V oblasti sémantického webu se kromě URI, jejichž pomocí je odkazováno na zdroje, pracuje s již zmíněným rámcem pro popis zdrojů (RDF) a se slovníky (vocabularies). Rámec pro popis zdrojů zde slouží jako nástroj pro zápis informací o kolekci zdrojů (aggregation). Informace jsou vyjádřeny jako výroky pomocí RDF Triples; přednášející přitom zdůraznil, že jde o velmi přímočarý a snadno pochopitelný mechanismus, kde o "zdroji -- se tvrdí -- něco" (např. výrok "Herbert je autor"). Vágní vyjádření vztahu (relatedTo) je možné díky slovníkům nahradit přesnějším vyjádřením (hasChapter, follows apod.). Dle specifikace OAI-ORE je každý z elementů výroku identifikován svým identifikátorem (URI), pro zdroje či relace, které ještě nemají či nebudou mít vlastní identifikátor, lze však použít i obyčejné řetězce (literals).

Přednášející dále přiblížil propojená data. Upozornil, že na počátku vývoje webu bylo zřejmé zaměření na dokumenty. Něco podobného se nyní již asi dva až tři roky děje v oblasti webu dat – ten existuje jako „paralelní vesmír“ vedle běžného webu. Místo publikování dokumentů určených pro „konzumaci“ člověkem jsou publikovány dokumenty v RDF určené pro „konzumaci“ strojem. Příkladem může být DBpedia, verze Wikipedie pro stroje. Vznikla na základě skenování stránek Wikipedie roboty – ze stránek byly extrahovány strukturované informace, na jejichž základě vznikl paralelní dokument v RDF. Propojená data vlastně představují obrovskou distribuovanou databázi – mezi sebou jsou propojeny různé databáze, a to díky tomu, že pro stejné objekty používají stejná URI (např. URI města Paříže bude mít stejné URI ve všech databázích). V současné době existuje cca 4,5 miliardy RDF trojic propojených 180 miliony RDF odkazů. Ve světě sémantického webu a webu propojených dat jsou (ostatně je tak naznačeno již uvedením příkladu města Paříže) dávána URI i reálným objektům nebo také konceptům (např. číslo nula). Aby však bylo možné odlišit, které URI odkazuje na dokument a které např. na zmíněný reálný objekt, byla zavedena pragmatická konvence. Je-li zadáno např. URI přiřazené městu Paříž, pak není vrácen přímo dokument, ale ve výsledku se jedná o RDF dokument s informací o Paříži – je zde možné využít vztahu, resp. vlastnosti rdfs:seeAlso. H. Van de Sompel zdůraznil, že právě díky propojeným datům se teoretický koncept sémantického webu stává realitou. Pro zájemce dodal, že propojeným datům je věnován velmi dobře zpracovaný tutorial.

Pokud se týká zmiňované agregace, jde o koncept – jeden ze zdrojů sémantického webu. Přednášející podtrhl, že jako nový zdroj, který reprezentuje skupinu nějak příbuzných zdrojů (ty předtím neměly žádné hranice ani identitu), má agregace své vlastní URI a je popsána v mapě zdrojů. Významným tématem současného akademického výzkumu je důvěra (jak poznáme, že se jedná o agregace vytvořené důvěryhodným subjektem?) – jedná se o tentýž problém, s nímž se setkáváme v prostředí běžného webu. H. Van de Sompel také upozornil, že pokud se týká slovníků, je důrazně doporučeno pokud možno vždy využít slovníky, které jsou již k dispozici; pokud jsou vytvářeny nové slovníky, je potřeba zachytit jejich vztah k již existujícím slovníkům.

Dále se již věnoval jednotlivým krokům při vytváření agregací – nejprve je zaveden zdroj, který reprezentuje agregaci, pak je publikována mapa zdrojů, která agregaci popisuje. Mapa zdrojů pak může být objevena prostřednictvím agregace. Agregované zdroje jsou stále zdroji; každý zdroj může být součástí jedné či více agregací, agregovaný zdroj může být sám agregací (lze vytvářet vnořené agregace – např. časopis – ročníky – čísla), každá agregace může mít více map zdrojů (v tomto směru je důležitá role tzv. Proxy – díky tomu je možné vyjádřit kontext konkrétní agregace). Velmi důležité je si uvědomit, že metadata popisující mapu zdrojů nejsou totožná s metadaty popisujícími agregaci. Každá mapa zdrojů musí minimálně obsahovat URI agregace a agregovaných zdrojů a dále údaje o tom, kdo agregaci vytvořil a kdy byla naposledy modifikována.

Přednášející doporučil zájemcům jako základní zdroj tzv. Primer (ORE User Guide – Primer), který představuje velmi dobře srozumitelný úvod do problematiky OAI-ORE.

Další část workshopu byla věnována otázkám interoperability OAI-ORE a technologie Atom – tím se zároveň dostal ke slovu také web 2.0. Technologie tzv. kanálů (feeds) je v OAI-ORE využívána k vyjádření map zdrojů. Zatímco v OAI-ORE se setkáváme s velmi přesnými definicemi, Atom je naopak volnější. Cílem bylo zprostředkovat co nejvíce informací o agregaci s využitím nativních elementů Atomu. Jedním z důležitých rozdílů mezi OAI-ORE a Atomem je v tom, že u Atomu není uvedení autora na úrovni příspěvku (entry) povinné (Atom je využíván mj. u blogů, kdy jeden autor typicky píše blog jako celek), naopak v OAI-ORE jde o povinný prvek (viz výše zmíněná různá autorství agregace a mapy zdrojů).

Přednášející představil také několik nástrojů, které je možné při práci s OAI-ORE (např. ORE Atom Resource Map Validator). Věnoval se také implementaci OAI-ORE do protokolu HTTP (lze např. vyjádřit preferenci formátů).

Zmínil také několik projektů, které s OAI-ORE experimentují, např. OREChem, NSF DataNet či DRIVER 2. OAI-ORE implementují také hlavní softwary pro institucionální repozitáře (Fedora, DSpace, ePrints), implementace probíhá mj. v repozitáři Fedora na Univerzitě v Oxfordu. Byla také vytvořena mapa zdrojů pro celou databázi JSTOR, ta by měla být publikována v nejbližší době (v řádu týdnů). H. Van de Sompel zmínil také v současné době vyvíjen OAI-ORE plug-in do aplikace MS Word – jedná se o důležitý krok na cestě ke strojově srozumitelným dokumentům. Vyzdvihl také sociální síť Myexperiment.org pro vědce sdílející workflow a rovněž pokus provedený v Los Alamos National Laboratory týkající se využívání webu jako prostředí získávání citací při psaní textu (v pokusu byla využita platforma wiki). Upozornil také na aktivitu Kongresové knihovny ve Washingtonu, která OAI-ORE využívá při publikování digitalizovaných novin.

Prezentace, jíž přednášející využíval při workshopu, je k dispozici na serveru SlideShare (ke stažení je potřeba se na serveru zaregistrovat, registrace je zdarma).