Sorry, you need to enable JavaScript to visit this website.

Vybrané aplikace metadatového formátu EAD

Čas nutný k přečtení
25 minut
Již přečteno

Vybrané aplikace metadatového formátu EAD

0 comments
Anglicky
English title: 
Selected applications of metadata format EAD
English abstract: 
<p>This article presents selected applications of descriptive metadata format EAD – web service Archives Hub and project Janus. </p>
Poznámka redakce: Článek je tvořen vybranými a upravenými kapitolami z rigorózní práce autorky, která byla obhájena na Ústavu informačních studií a knihovnictví Filozofické fakulty Univerzity Karlovy v Praze v listopadu 2007.

Bibliografický záznam původní práce:
SYNKOVÁ, Veronika. Aktuální problémy identifikace a popisu webovských informačních zdrojů [Actual problems of identification and description of web information resources]. Praha, 2007. vi, 161 s., 26 s. příloh. Rigorózní práce. Univerzita Karlova v Praze, Filozofická fakulta, Ústav informačních studií a knihovnictví, 2006. Konzultant rigorózní práce PhDr. Eva Bratková.

Úvod

Metadatové formáty Dublin Core, TEI a EAD patří mezi nejpoužívanější popisné metadatové formáty. Tento článek navazuje na předchozí dva díly, které představily aplikace formátů Dublin Core a TEI. Popisuje aplikace formátu EAD v databázi služby Centrála archivů a v projektu Janus.

Hlavičky EAD a jejich aplikace

Formát Kódování pro popis archiválií, známý jako EAD (Encoding Archival Description, http://www.loc.gov/ead/), vznikl v roce 1993 na Univerzitě v Berkeley původně jako „Berkeley Finding Aid Project“ (BFAP). Jeho cílem bylo umožnit tvorbu registrů, rejstříků, seznamů a dalších pomůcek pro snadnější vyhledávání zdrojů v knihovnách, exponátů muzeí, sbírek rukopisů apod. Pro jednodušší dostupnost materiálů bylo nutné zpřístupnit především informace o vlastnictví (EAD, 2006).

Kniha může být vydána v určitém nákladu. Jednotlivé exempláře jsou v podstatě identické. Na rozdíl od knih jsou archivní exponáty obvykle jedinečné. I když vznikne replika, kopie či jiná reprodukce exempláře, nemá už stejnou hodnotu jako originál.

Dalším specifickým rysem muzejních fondů je jejich účel. Knihovny slouží obvykle především čtenářům a uživatelům. Archivní fondy jsou určeny nejen uživatelům a návštěvníkům, ale především k archivaci lidské kultury, historie a lidského vývoje. Zde uložené materiály bývají vzácné. Některé archiválie je nutné chápat v historickém kontextu jejich vzniku, jinak mohou být špatně vyloženy nebo dokonce zcela nepochopeny (Pitti, 1999).

V březnu 1995 byla zveřejněna první verze Berkeley Finding Aid Project DTD (BFAP). Po testování této verze bylo přistoupeno k revizi a úpravám DTD, datového modelu a souvisejících zdrojů. Pro upravený model BFAP se začalo používat označní EAD (Encoded Archival Description). Po třech letech práce na formátu a několika testovacích verzích byla v roce 1998 vydána verze 1.0 formátu TEI (EAD, 2006). Větší změny a možnost použití formátu XML přinesla verze EAD, která byla zveřejněna v roce 2002.

EAD nespecifikuje, co má být popisnou jednotkou. Úroveň popisné jednotky stanovují jednotlivé instituce (popř. katalogizátoři) před zahájením zpracování. EAD poskytuje nástroje pro prezentaci hierarchické struktury archivních sbírek a materiálů. Záznamy tak mohou být uspořádány do hierarchických úrovní a mohou mezi nimi být naznačeny vazby.

EAD 2002 popisuje 146 prvků, ale pouze několik z nich je povinných. Prvkům jsou přiřazeny určité vlastnosti, které zužují jejich význam (EAD, 2002).

Struktura záznamu EAD je rozčleněna na dvě části. První částí je popis jednotky a druhou částí jsou údaje o archivu, fondu či jiném souboru zdrojů. První část obsahuje dva nejvyšší prvky - hlavičku EAD Header <eadheader> a prvek Front Matter <frontmatter>. Druhá část obsahuje třetí nejvyšší prvek Archival Description <archdesc>. Tyto tři prvky jsou vnořeny do celkového popisu ohraničeného tagem Encoded Archival Description <ead>.

Hlavička EAD vychází z hlavičky TEI. Zachycuje informace důležité pro uložení a následné vyhledávání zdroje. Jsou to informace o vzniku, úpravách, vydání a přístupu ke zdroji. Sestává ze čtyř částí, které mohou být dále členěny:

  • Identifikátor EAD <eadid> - jednoznačný identifikátor zdroje,
  • Popis souboru <filedesc> - bibliografické informace o zdroji členěné do hierarchicky dělených prvků <titlestmt> (hlavní název, podnázev a autor) a <publicationstmt> (údaje o nakladateli, datum a místo vydání),
  • Profil zdroje <profiledesc> - původce kódované verze zdroje, důvod kódování, jazyk apod. s prvky <creation> (individuální odpovědnost za vytvoření díla spolu s údajem o datu) a <langusage> (jazyk záznamu),
  • Historie změn <revisiondesc> - shrnutí všech podstatných úprav zdroje.

Uvedené části by za sebou měly následovat v pořadí, které udává DTD EAD. EAD proto dovoluje užít volitelný prvek <frontmatter> pro různé další informace uvedené na titulní straně a v úvodních částech zdroje. Jde např. o úvod, věnování, návod k použití a další texty spojené se vznikem, vydáním či používáním zdroje.

V prvku <archdesc>, který v popisu stojí na stejné úrovni jako hlavička TEI, se nacházejí strukturované popisné informace. Informace jsou uspořádány v několika hierarchických úrovních. Mezi nejdůležitější prvky vyšší úrovně patří prvek <did> (Descriptive identification). Slouží k identifikaci zdroje a rozhodnutí uživatele o relevanci zdroje vzhledem k jeho potřebám. Hierarchicky nižšími prvky spadajícími pod prvek <did> jsou např. název, autor, datum vytvoření, údaje o vlastnictví zdroje,... (Pitti, 1999). Z vyšší úrovně popisu na nižší úroveň jsou „děděny“ informace. Je zde množství volitelných prvků pro bližší popis jednotlivých částí celku i pro administrativní informace typu akvizičních údajů či přístupových práv. Pro sdružení prvků o jedné jednotce se používá ohraničující tag Popis podřízených složek <dsc> (Description of Subordinate Components) (EAD, 1998).

Formát EAD i jeho struktura jsou složité. Prvky v záznamech mohou být uloženy v několika hierarchických úrovních a některé prvky mohou být uloženy na různých místech jako podřazené prvky více částí popisu. V popisu je možné používat také prvky s odkazy nejen na různé části popisovaného materiálu, ale i na externí zdroje. Dalším rysem tohoto formátu je přítomnost prvků, které určují formátování a vzhled materiálu. Používají se především pro tabulkové zobrazení textu.

Centrála archivů

Centrála archivů (Archives Hub, http://www.archiveshub.ac.uk/) je webová služba, která nabízí volný přístup k popisným informacím o archivech řady britských vysokoškolských institucí z oblasti humanitních a filozofických věd (Ramsden, 2003). Jde většinou o popisy na úrovni sbírky (Archives Hub, 2000d). Tyto sbírky jsou výsledkem činnosti určité osoby nebo organizace. Mohou obsahovat listiny, knihy, fotografie, audiovizuální nahrávky i jiné typy materiálů (Archives Hub, 2000d). V případě, že jednotlivé instituce zpřístupňují také záznamy na nižších úrovních (popis jednotky), jsou dostupné zprostředkovaně i tyto záznamy. K vybraným zdrojům musí uživatelé přistupovat přes jednotlivé archivy, jejichž seznam s odkazy je zpřístupněn na stránkách Centrály archivů (Archives Hub, 2000d). Kromě informací o archivech poskytuje Centrála archivů také informace a školení katalogizace archivních sbírek s použitím XML a metadatového formátu EAD.

Centrála archivů je spolu s dalšími archivy součástí národní sítě archivů Velké Británie. Vývoj Centrály archivů je řízen komisí složenou ze zástupců spolupracujících institucí, Národním archivem a zástupci dalších archivů (Archives Hub, 2000d). Do vývoje této služby zasahují pomocí veřejných diskusí také uživatelé a různí přispěvatelé z řad veřejnosti (Archives Hub, 2000d). Ukázalo se, že připomínky spolupracujících organizací jsou pro provoz a vývoj systému velmi důležité (Hill, 2002).

Systém Centrála archivů je provozován na serverech MIMAS na Univerzitě v Manchesteru pod záštitou Konsorcia univerzitních vědeckých knihoven (Consortium of University Research Libraries, CURL). Hlavním spozorem je Spojená komise informačních systémů (Joint Information Systems Committee, JISC), organizace, která podporuje využívání informačních systémů a technologí v oblasti vzdělávání ve Velké Británii. Vývoj systému zajišťuje Univerzita v Liverpoolu (Archives Hub, 2002b).

Pilotní fáze projektu Centrála archivů probíhala od září 1999 do července 2000. Šlo především o průzkumy v oblasti akademické a archivační. Pilotní fáze se účastnilo patnáct vysokoškolských knihoven a archivů. Výsledkem bylo zhruba 3 000 záznamů na úrovni archivů a prototyp systému. Na základě výsledků pilotního projektu začala od roku 2001 Centrála archivů fungovat jako webová služba s finanční podporou JISC. Původně se projektu účastnily pouze vysokoškolské instituce a instituce postgraduálního vzdělávání. Nyní je však zapojeno přes 150 vzdělávacích institucí různé velikosti a charakteru.

Popisné záznamy jsou vytvářeny v jednotlivých institucích, které sbírky vlastní, a jsou zasílány do Centrály archivů. Pro vytváření záznamů se používají formuláře, které jsou strukturované podle normy Mezinárodní standard pro popis archiválií ISAD(G) (General International Standard of Archival Description). ISAD(G) klade důraz na víceúrovňový popis a vztahy mezi bibliografickými záznamy a autoritními záznamy, které jsou vytvářeny dle ISAAR(CPF) (ISAD(G), 2000). Použit je metadatový formát EAD uložený ve standardu XML.

Aby se předešlo v co největší míře nejednotnosti a různému přístupu jednotlivých katalogizátorů, jsou určitá pole povinná. Dále mají katalogizátoři k dispozici informace, jak nejlépe záznam připravit. Před přidáním do databáze je každý záznam zkontrolován editorem.

Největší rozdíly lze najít v oblasti věcného zpracování, protože různé instituce využívají odlišné tezaury a hesláře. Kromě předmětových hesel Kongresové knihovny jsou používány např. tezaurus UNESCO nebo z něho odvozený tezaurus UKAT (United Kingdom Archival Tezaurus). Nejednotnost v oblasti věcného popisu se snaží řešit tzv. „Subject Finder“, který používá metodu shlukování (clustering). Aplikuje ji na použité výrazy z tezaurů a výrazy z volných polí s věcným popisem. Odpadá tak nutnost vyhledávání podle více řízených slovníků (Hill, 2006).

Využití Centrály archivů od roku 2001 stále vzrůstá. Výrazný růst byl zaznamenán poté, co začaly být koncem roku 2002 zpřístupňovány popisné záznamy přes webové vyhledávače.

Do července 2005 byla databáze Centrály archivů spravována plně centrálně na serverech MIMAS na Univerzitě v Manchestru. Změnu ale přinesl software Spokes, který dovoluje každé instituci spravovat si lokálně svůj vlastní archiv a pouze ho Centrále zpřístupňovat přes protokol Z39.50 (Hill, 2005). Spokes zahrnuje relační databázi, která obsahuje informace o každém vzdáleném archivu spolu s údaji, kdy byl tento archiv naposledy navštíven, aktualizován, zda je aktuálně dostupný atd. V případě delší nedostupnosti lokálního archivu je možné přesměrovat odkazy na kopii archivu na centrálním serveru (Hill, 2005).

Za současné spolupracující organizace, které přispívají svými záznamy archivů do systému, jmenujme z rozsáhlého seznamu alespoň vybrané instituce a zaměření jejich archivů (Archives Hub, 2000a):

  • Univerzita v Aberdeenu - historické a kulturní archivy týkající se severovýchodního Skotska,
  • Univerzita ve Walesu - akademické práce a archivy, které vytvořili významné osobnosti,
  • Univerzita v Bathu - vědecké archivy,
  • Univerzita v Birminghamu - přes 300 archivů, mezi než se řadí např. Chamberlainův archiv, archiv organizace YMCA, univerzitní archiv, archiv náboženských textů nebo archiv divadelních studií,
  • Oxfordská Bodleiana - literární, historické, politické archivy z 19. a 20. století,
  • Univerzita v Glasgow - archiv divadelních textů a archiv s tématy lékařství,
  • Umělecká škola v Glasgow - kolem 300 archivů z oblasti umění a architektury.

Centrála archivů představuje zdarma dostupné rozhraní pro přístup k mnoha různým archivům. Tematicky pokrývá Centrála archivů archivy vědecké, politické, literární, historické, archivy průmyslového rozvoje, medicíny, historie diplomacie, umění a architektury. Archivy, které Centrála archivů popisuje, obsahují nejen listiny a podobné materiály, ale také např. filmy a audio nahrávky, obrazy a další objekty výtvarného umění a dokonce rentgenové snímky (Archives Hub, 2002b).

Popis archivů provádějí informační pracovníci. Popis zahrnuje informace o celém archivu (způsob organizace materiálů), informace o typech záznamů v archivu, předmětovém a časovém pokrytí objektů, informace o možnostech a omezeních přístupu do archivu a předmětová hesla (osoby, místa, tematické vymezení) (Archives Hub, 2002b).

Popisné jednotky

Popis je prováděn na úrovni archivů ve smyslu sbírek archiválií. Archivy mohou být uspořádány dle potřeb každé instituce (místně, regionálně, dle formátu, tematicky, dle autora, ...). Důležité však je, že popisované archivy musí být dostupné externím uživatelům. Prozatím jde z velké části o fyické archivy a sbírky, které jsou dle možností jednotlivých institucí digitalizovány.

Pokud některá instituce vytvářní záznamy na nižší úrovni (úrovni jednotky), Centrála tyto záznamy zprostředkovaně zpřístupní také.

Metadatové záznamy

Záznamy jsou tvořeny pomocí webového formuláře. Do formulářů se podle pravidel ISAD(G) vyplňují údaje, které jsou automaticky převáděny do XML souborů, v nichž jsou údaje uloženy v metadatovém formátu EAD. K jednotlivým polím je možné přes hypertext vyvolat kontextovou nápovědu. Pro generování stránek s příslušnými prvky EAD jsou využívány JavaScripty.

V úvodu formuláře katalogizátor volí úroveň popisu. Je možné vytvářet popis pouze na úrovni archivu či sbírky, dále je možné kombinovat tuto úroveň s popisem na nižších úrovních, nebo je možné zvolit popis pouze na nižší úrovni. I v případě vytváření záznamu na nejnižší úrovni je potřeba v záznamu uvést základní údaje o archivu či sbírce, do níž jednotka patří. Je to proto, aby byl záznam jasný a srozumitelný i v případě, že bude zobrazen samostatně bez souhrnného záznamu archivu. Poslední část formuláře tvoří prvky pro věcný popis (jména autorů a korporací), které by měly být vybírány z tezaurů a řízených slovníků. Následující tabulka shrnuje pole webového formuláře Centrály archivů a ukazuje, jaké prvky z formátu EAD představují (Archives Hub, 2000c).

Prvky formátu EAD používané Centrálou archivů dle webového formuláře

Pole formuláře Centrály archivůPrvky EADPoznámky
Jméno repozitáře <repository>
Identifikační údaje
Referenční kód <eadid> kód země, číslo archivu, kód sbírky, např. GB 0033 AHM
Název <titlestmt> co nejvýstižnější název archivu, sbírky nebo jednotky
Datum vytvoření <unitdate> není-li znám přesný datum, doporučuje se uvést přibližné datum či století, forma vyjádření je volná
Normalizované datum <unitdate normal=""> normalizované datum, např. <unitdate normal="1201-1299">13th century</unitdate>
Stupeň popisu <archdesc level="fonds"> automaticky generované pole
Rozsah popisné jednotky <extent> vyjádření velikosti zdroje i s jednotkami velikosti či rozsahu
Kontextové údaje
Jméno tvůrce <origination> jméno autora, autoritní forma jména je uvedena v prvku <persname>
Administrativní/biografická historická poznámka <bioghist> poznámka ke kontextu objektu
Archivní historie <custodhist>
Přímý zdroj akvizice <acqinfo>
Údaje k obsahu a struktuře
Účel a obsah <scopecontent> krátká poznámka k obsahu
Ocenění, zhodnocení <appraisal>
Růst hodnoty díla <accruals>
Způsob uspořádání <arrangement>
Podmínky přístupu a využití
Podmínky přístupu <accessrestrict>
Podmínky reprodukce <userestrict>
Kód jazyku zdroje <langmaterial> trojznakový kód či více kódů dle ISO 639-2
Fyzické znaky <phystech>
Vyhledávací nástroje <otherfindaid> např. poznámka o existenci lístkového katalogu
Údaje o souvisejících zdrojích a materiálech
Údaje o existenci a lokaci originálu <originalsloc>
Údaje o existenci a lokaci kopie <altformavail>
Příbuzná jednotka <relatedmaterial>
Dílo pojednávající o nebo zakládající se napopisovaném zdroji <bibliography>
Poznámky
Poznámka <note>
Popisné údaje
Poznámka archiváře <processinfo> autor záznamu, zdroje informací v záznamu
Datum vytvoření záznamu <date> pole generováno automaticky
Přístupové body
osobní jméno
jméno rodu
jméno korporace
jméno místa, oblasti
předmět
<controlaccess>
<persname>
<famname>
<corpname>
<geogname>
<subject>
Prvek propojuje všechny záznamy jednoho autora, o jednom tématu apod. Jeho obsah musí být kontrolován řízenými slovníky, tezaury či soubory autorit. Obsahuje údaje z prvků <unittitle>, <originator>, <bioghist>.

Údaje, které byly zapsány do formuláře, jsou převedeny do formátu EAD a takto vytvořený záznam se otevře v novém okně. Záznam vytvořený pomocí webového formuláře je možné editovat pomocí jakéhokoliv textového nebo XML editoru. Kromě úpravy obsahu prvků, přidávání nebo mazání prvků je možné ke každému prvku připojit atribut <audience>, který dokáže zajistit skrytí údajů, které nemají být veřejně přístupné, např. <profiledesc audience=”internal”>.

Centrála archivů umožňuje popis archivu na více úrovních. Jde o případy, kdy archiv obsahuje menší ucelené sbírky. Pro popis na více úrovních popisu je možné užít nejdříve formulář pro nejvyšší úroveň popisu a následně pro každý podřazený záznam formulář pro nižší úroveň popisu. Soubory, které takto vzniknou, vytvoří komplexní platný dokument EAD (Collis, 2001).

Formát EAD byl pro účely systému Centrály archivů pozměněn zcela nepatrně. Cílem těchto změn bylo zajištění větší konzistence popisu. Mezi úpravy patří změna prvku <controlaccess>, do jehož podřízených prvků <geogname>, <subject> a <persname> byl přidán prvek <emph> (emphasis) pro užší vymezení významu částí těchto prvků. Použití tohoto prvku formát EAD 2002 povoluje (Hill, 2002).

Centrála archivů neomezuje spolupracující instituce ve využití potřebných tezaurů, předmětových hesel a rejstříků, jako jsou např. tezaurus Unesco, tezaurus UKAT, tezaurus geografických jmen TGN (Thesaurus of Geographic Names), předmětová hesla Kongresové knihovny (LCSH). Použít je možné i jiné tezaury (AAT, ERIC, HASSET, MeSH, ...) Pro jmenné autority využívá Centrála archivů jmenné soubory autorit Kongresové knihovny nebo referenční kódy NRA. Zpracování se řídí pravidly AACR2 a Pravidly archivního popisu NCA Národní rady archivů (National Council of Archives) (Archives Hub, 2000b).

Vyhledávání

Pro vyhledávání používá Centrála archivů vyhledávací systém Cheshire, který vyvinul profesor Ray Larson z Kalifornské univerzity v Berkeley. Na jeho dalších úpravách a vývoji klienta se podíleli pracovníci Univerzity v Liverpoolu. Systém byl od počátku určen k použití s formátem EAD.

Jde o robota, který indexuje jednotlivé XML soubory s metadatovými záznamy v EAD. Tyto záznamy archivů dodávají jednotlivé instituce, pod něž dané archivy a sbírky spadají. Z každého záznamu jsou vytvořeny podle obsažených prvků rejstříky, ve kterých je následně možné vyhledávat. Vyhledávání se neomezuje pouze na rejstříky, ale je možné vyhledávat I v režimu volného textu.

Do července 2005 byla databáze Centrály archivů pouze jedna centrální. Pak ale systém přešel na distribuovaný model, který dovoluje institucím spravovat vlastní databáze a repozitáře a data z nich pouze zprostředkovávat přes protokol Z39.50. Spolupráci s centrálním vyhledávacím systémem zajišťuje software Spokes. Každou noc probíhá synchronizace a aktualizace rejstříků z jednotlivých institucí spravovaných softwarem Spokes s centrálními rejstříky.

V současnosti je používána verze 3 systému Cheshire, která spolu se systémem Spokes plně podporuje formát XML. Systém se vyvíjí tak, aby bylo možné záznamy nejen vyhledávat a zobrazovat, ale také stahovat přes Z39.50 a OAI PMH ve formátu EAD i dalších rozšířených formátech typu Dublin Core nebo MARC. Zajištěna by měla být také podpora standardu METS pro přenos záznamů (Archives Hub, 2000e).

Systém Centrály archivů nabízí jednoduché rozhraní pro vyhledávání a pokročilé vyhledávání. Pokročilé vyhledávání umožňuje vyhledávat ve vybraných polích nebo v plném textu a užívat booleovské operátory (and/or). Důležitá je možnost omezení vyhledávání na vybraný archiv. Známe-li referenční číslo zdroje, lze vyhledávat i podle něho.

Další možností je listování v rejstřících názvů sbírek a archivů, předmětů, jmen osobních a korporativních, geografických jmen, osobních přízvisek a referenčních čísel.

Zvláštní pomůckou vyhledávání je nástroj „předmětové vyhledávání“ (subject finding). Jak již bylo uvedeno výše, používá metodu shlukování. Vyhledává k zadanému výrazu související výrazy v existujících rejstřících a tezaurech. Systém nerozlišuje velká a malá písmena. Automaticky vyhledává jiné tvary slova (nurse, nursing, nurses apod.) (Archives Hub, 2002a).

Po vyhledání se zobrazí okno rozdělené na dvě části. V levé části je seznam vyhledaných záznamů, v pravé části okna pak konkrétní vyhledaný záznam. Obvykle jde o záznam celého archivu nebo sbírky. Může jít ale také o záznam s více úrovněmi popisu. Pak je seznam vyhledaných výsledků v levé části okna nahrazen stromem s jednotlivými částmi popisu. Části stromu je možné rozbalovat a přes odkazy, které jsou v nich umístěné, se posouvat přímo na vybranou úroveň a část popisu v hierarchickém záznamu.

Shrnutí informací o Centrále archivů

Centrála archivů je součástí širší sítě, která ve Velké Británii eviduje informační zdroje z různých oborů lidské činnosti. Pro oblast humanitních a filozofických věd se stala nezastupitelným informačním zdrojem, počet jejích uživatelů nejen z univerzitního prostředí stále stoupá.

Centrála hraje významnou roli také jako koordinační a vzdělávací centrum a pomáhá ostatním institucím budovat vlastní repozitáře a sbližovat se s problematikou digitálních archivů, metadatových formátů a dalších souvisejících témat.

Pro zájemce je k dispozici také blog k Centrále archivů, mailing list, každý měsíc je vybírána nejzajímavější sbírka měsíce. Je možné zajistit si novinky přes službu RSS. Díky spolupráci s technicky orientovanými odborníky z Univerzity v Manchesteru udržuje Centrála archivů krok s novými technologiemi, nasazuje nové verze používaného softwaru a zakomponovává do procesu svého fungování i nové systémy. Přechod z centralizovaně vytvářené databáze na distribuovaně pracující systém je důkazem rozvoje celého systému. Dává více volnosti jednotlivým spolupracujícím institucím.

Také podpora sdílení záznamů přes protokoly Z39.50 a OAI-PMH a podpora standardů, mezi které patří metadatový formát Dublin Core nebo standard METS, naznačují, že Centrála archivů se bude i nadále vyvíjet, sloužit svým uživatelům a spolupracovat s ostatními institucemi na rozvoji informační infrastruktury.

Janus

Historie britského projektu Janus (http://janus.lib.cam.ac.uk/) sahá do října 2002. Cílem tohoto projektu bylo zajistit jednotný přístup ke katalogům všech archivů a rukopisných sbírek v Cambridge. Do databáze jsou postupně přidávány archivy jednotlivých spolupracujících univerzit a dalších kulturních institucí. Koncem roku 2006 dosáhl jejich počet třicítky a počet zpřístupňovaných katalogů čísla 1 500.

Janus je hostován a řízen knihovnou Univerzity v Cambridge. Na financování projektu se podílí řada nejen univerzitních a muzejních institucí. Projekt sponzorují také nadace (Foyle Foundation a Heritage Lottery Fund) (Janus, 2006a).

Projekt nese jméno římského boha bran a dveří. Bůh Janus bývá zobrazován s dvěma tvářemi, z nichž jedna hledí vpřed a druhá vzad, stejně jako dvě strany dveří. Tato symbolika má být obsažena také v projektu samotném. Skrze moderní technologie (pohled vpřed) se uživatelům nabízí možnost nahlédnout do archivů a sbírek nejen historických dokumentů (pohled vzad).

Databáze neobsahuje plné texty dokumentů ani jejich digitální obrazy. Přístup k vybranému dokumentu si musí uživatel zajistit na základě domluvy s institucí, která sbírku či archiv vlastní. Kontaktní informace Janus nabízí.

Většina zúčastněných institucí používá pro katalogizaci aplikaci MS Access. Ostatní instituce vytváří záznamy pomocí formuláře na stránkách projektu, nebo katalogizují své záznamy ručně. Katalogizace probíhá podle ISAD(G) a záznamy jsou uloženy v metadatovém formátu EAD. Pro osobní personální a geografické autority se používají pravidla NCA (National Council on Archives) a pro další věcné zpracování předmětový tezaurus UNESCO a tezaurus geografických výrazů Getty.

Každá spolupracující instituce může na interních stránkách projektu provést upload záznamů do svého adresáře. Z něho jsou uložené záznamy přesouvány do veřejné databáze. Před importem do databáze je ale každý záznam kontrolován. Kontroluje se validita EAD záznamu. Záznamy jsou indexovány, aby byly následně vyhledatelné. Každá instituce může své záznamy upravovat, updatovat nebo i mazat (Janus, 2006a).

Janus používá tzv. „čistič“ („tidyer“). Ten zajišťuje úpravy EAD záznamů. Např. odstraňuje nadbytečné mezery, opravuje DTD, upravuje některé kódování pro XML (např. &) nebo koriguje výrazy z tezaurů a autoritních rejstříků. Dokáže také konvertovat data z jiných archivů (např. z Archives Hub) tak, aby byla vhodná pro Janus (Janus, 2006f).

V první fázi se podařilo vytvořit infrastrukturu, která zajišťuje listování v rejstřících repozitářů a zúčastněných institucí a vyhledávání v metadatových záznamech. V druhé fázi byl pro Janus vytvořen vyhledávací stroj a nástroje, které dovolí připojovat katalogy vznikající v rámci jiných projektů zaměřených na archivy, kterých je ve Velké Británii několik.

Popisné jednotky

V databázi Janus jsou obsaženy především záznamy, které na nejvyšší úrovni popisují archivy a sbírky. U některých archivů neexistují záznamy na nižší úrovni. U většiny jde ale popis na nižší úrovně. Vybraný archiv nebo sbírku je možné samostatně prohledávat a dostat se až k zobrazení záznamu jednotlivého dokumentu. Systém nabízí také vyhledávání napříč různými archivy a sbírkami (Janus, 2006a).

Archivem či sbírkou se rozumí kolekce dokumentů, které shromáždil jednotlivec, rodina nebo instituce. Janus neobsahuje pouze textové archivy a sbírky. Zahrnuje také sbírky audio a video nahrávek, map, fotografií atd. Stejně tak se nezaměřuje pouze na historické sbírky, ale eviduje i sbírky novodobé (Janus, 2006e).

Metadatové záznamy

Jak již bylo uvedeno výše, záznamy jsou vytvářeny podle pravidel ISAD(G) v metadatovém formátu EAD. Tvorba probíhá pomocí nástrojů v MS Access, webového formuláře projektu Janus nebo v textovém, popř. XML editoru (Janus, 2006d). Záznamy jsou uloženy v domovských adresářích jednotlivých institucí a ve veřejné databázi.

Každý metadatový záznam obsahuje hlavičku EAD, která je zásadní pro ověřování záznamu, jeho výměnu, aktualizaci a určení původu. Jsou v ní uvedeny základní údaje o popisované sbírce či archivu. Obsáhlejší popis může být obsažen v prvku <bioghist>. Záznam může obsahovat také informace o omezeném přístupu nebo využití zdroje. Přítomny mohou být samozřejmě také různé poznámky. Na základě řízených rejstříků a tezaurů se v záznamu vytváří část <controllaccess>, která odkazuje na autoritní formy jmen autorů nebo geografických jmen (Janus, 2006d).

Webový formulář, který je k dispozici na stránkách projektu Janus, provází katalogizátora jednotlivými částmi popisu. V první části se vytváří hlavička EAD se základními údaji o záznamu (název zdroje, katalogizátor, instituce, jazyk atd.). Po vyplnění údajů přechází vždy katalogizátor tlačítkem next na další část formuláře. Druhá část obsahuje základní údaje o popisovaném archivu či sbírce. Katalogizátor vybírá především úroveň popisu a následně vyplňuje informace o názvu sbírky, časovém rozmezí, žánru, původci sbírky, případně odkaz na digitální obraz sbírky. Třetí část formuláře tvoří prvky <bioghist>, <scopecontent> a <arrangement>, které mohou obsahovat podrobnější popis obsahu sbírky či archivu. Následuje popis, který shrnuje informace o provenienci sbírky, historii jejího uložení, způsobech rozšiřování a jejího ocenění. Pátá část se věnuje možnostem a omezením přístupu ke sbírce a jejímu využití. Další část obsahuje poznámky a informace o souvisejících materiálech. Formulář zakončuje obrazovka s přístupovými prvky, které by měly být vytvářeny podle řízených slovníků, tezaurů a obdobných pomůcek. Jde o jména osob, rodin, korporací, geografická jména a předmětová hesla.

Po potvrzení tlačítka submit se do okna internetového prohlížeče vygeneruje metadatový záznam ve formátu EAD, který je možné zkopírovat a případně dále upravit (Janus, 2006c). Pro katalogizátory se ale nabízí komfortnější možnost vytváření EAD záznamů v souladu s ISAD(G) pomocí databáze MS Access nazvané Cantab, kterou vyvinuli archiváři z Cambridge (Janus, 2006b).

Vyhledávání

Pro vyhledávání v bázi Janus se nabízí jednoduché vyhledávání, pokročilé vyhledávání a listování ve vybraném katalogu nebo v rejstřících.

Formulář pokročilého vyhledávání dovoluje použít pro spojení vyhledávaných výrazů nebo frází operátory AND, OR, AND NOT. Vyhledávání může probíhat s omezením na určitý prvek i s filtrem na vybraný archiv. Pod formulářem se zobrazují stručné výsledky hledání. Přes link je možné vstoupit na detailní náhled vybraného záznamu.

Při listování v katalozích nejdříve uživatel musí vybrat instituci, v jejímž archivu či sbírce chce vyhledávat. Následně se mu zobrazí základní informace o instituci, kontakty, případně otevírací doba. Pod záznamem instituce je uveden seznam sbírek a archivů, které daná instituce zpřístupňuje. Seznam může být v řadě případů velmi obsáhlý.

V případě, že instituce uplatňuje popis na více úrovních, je možné přes vybrané záznamy vstupovat na nižší a nižší úroveň popisu. Počet hierarchických úrovní záleží na každé instituci a také na každé sbírce.

Při sestupování na nižší a nižší úroveň se v levé části okna prohlížeče zobrazuje seznam sbírek vždy o úroveň vyšší. Je tedy možné snadno přecházet mezi sbírkami.

Při listování v rejstřících si nejdříve uživatel volí typ rejstříku. K dispozici má rejstřík předmětových hesel, osobních jmen, jmen rodin a rodů, jmen korporací a geografických názvů. Pak si vybírá konkrétní heslo. Spolu s heslem se uživateli zobrazuje seznam záznamů, které dané heslo obsahují. Přes odkaz před záznamem je možné zobrazit detail záznamu.

V levé horní části okna se zobrazuje pomůcka pro rychlejší navigaci. Tentokrát jde o hesla z rejstříku, která předchází vybranému výrazu a která za ním následují. Opět představují aktivní odkazy, které uživatele rychle přenesou na nový výraz a s ním související záznamy.

Shrnutí informací o projektu Janus

Janus je úspěšně se rozvíjející projekt. Nezaměřuje se pouze na historické sbírky o výchově a vzdělávání, které vlastní Univerzita v Cambridge, ale díky aktivní účasti institucí v celé oblasti kolem Cambridge obsahuje dokumenty z řady oborů. Sbírky jsou velmi různorodé i díky jednotlivcům, kteří sbírky původně shromažďovali. Je možné na nich sledovat vývoj celé britské kultury, vědy a umění. Lze v nich najít dokumenty k politickým otázkám či k tématům z lékařství a medicíny (Janus, 2006a).

Jde bezpochyby o zajímavý projekt, který je otevřený i ke spolupráci s jinými (již existujícími) projekty. Metadatové záznamy ve formátu EAD výrazně nemění a neupravuje oproti původnímu formátu, takže je pro něj velmi snadné přebírat záznamy jiných institucí v tomto formátu.

Díky nástrojům pro tvorbu, které poskytuje spolupracujícím institucím, a následným kontrolním a ladícím mechanismům a validacím jsou záznamy do velké míry zpracované jednotně.

Zajímavá je na nich především možnost uspořádat záznamy do řady hierarchických úrovní. Software, se kterým pracuje koncový uživatel, je pro zobrazování těchto hierarchických úrovní dobře přizpůsoben.

Použité zdroje:
Hodnocení: 
Zatím žádné hodnocení
SYNKOVÁ, Veronika. Vybrané aplikace metadatového formátu EAD. Ikaros [online]. 2008, ročník 12, číslo 7 [cit. 2019-12-13]. urn:nbn:cz:ik-12900. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/12900

automaticky generované reklamy
registration login password