Univerzální digitální knihovna: první milion knih ve fondu

0 comments

Anglicky

English title:

The Universal Digital Library: Million Book Collection

English abstract:

<p>Purpose of this article is to introduce a project of Universal Digital Library. The project’s goal is to cover all the books of the world. The first practical output of the project is the Million Book Collection, a digital library accessible via web user interface. </p>

Autoři:

Vavříková, Lucie

Vydání:

2008, ročník 12, číslo 1

Rubrika:

Informační zdroje, služby, aplikace

O projektu

Již z názvu názvu – univerzální knihovna (Universal Digital Librarry, dále ULIB) – lze usuzovat na objemný projekt, který si neklade za cíl nic menšího než zdigitalizovat veškerá literární, umělecká a vědecká díla tak, aby byla přístupná všem bez rozdílu, kdykoliv a kdekoliv. Protože plán je to opravdu velkolepý, prvním dílčím cílem projektu bylo vytvořit tzv. Million Book Collection, digitální knihovnu o počtu milión záznamů, která je nyní již v provozu; dalším milníkem má být digitalizace a zpřístupnění deseti milionů knih do deseti let.

Projekt se zrodil na Carnegie Mellon University, hlavními partnery jsou pak Bibliotheca Alexandrina v Egyptě, čínské univerzity (Zheijang) a indické univerzity a výzkumné instituce (viz celý seznam). Na stránce http://www.ulib.org/ lze nalézt vyhledávací rozhraní pro Million Book Collection, pro deklarovanou dostupnost 24/7 na partnerských stranách existují zrcadla. Zajímavá je otázka financování a rozdělení mezi partnery, na první pohled je zřejmá velká finanční náročnost. Hovoříme-li prozatím o Million Book Collection, náklady na zařízení hradí National Science Foundation, Indie a Čína pak poskytuje lidskou sílu pro zpracování.

Rozhraní v současnosti i do budoucna bude poskytovat vlastní vyhledávací nástroj, jednou z podmínek vzniku této knihovny je právě prohledávatelnost textů.

Vznik této obrovské digitální knihovny s sebou přinese vznik největšího korpusu obsahující nejvíce jazyků, zejména lingvistické obory by tak získaly velmi cenný materiál. Zároveň zpracování těchto velkým objemů textů poslouží jako testovací prostředí pro zpracování jazyků v oblastech mechanického překladu, inteligentního indexování a vyhledávání; měla by přispět ke zlepšení skenovacích technik, OCR, indexování. Pokud se podaří trvalé zpřístupnění, můžeme hovořit i o podpoře vzdělávacího procesu obecně v rámci celého světa.

Vzhledem k volnému přístupu do knihovny je klíčová otázka autorských práv. Digitální knihovna se snaží přebírat autorská práva z každé země v co nejstriktnější podobě, knihy jsou pak zobrazovány v databázi dle následujících principů:

Celý obsah je zobrazen u knih, které stojí mimo ochranu autorského zákona (uvažuje se, že na knihy vydané před rokem 1923 se autorské právo již nevztahuje), dále jedná-li se o publikace z veřejné sféry (např. vládní publikace), existuje-li výslovné povolení ke zveřejnění nebo pokud nějaká jiná informace jasně udává, že je možné dílo zveřejnit. U ostatních knih se nezobrazí více než 10 % obsahu. Pokud má autor sám, vydavatel nebo jiný vlastník autorských práv zájem o zveřejnění díla v ULIB, je možné dílo do knihovny nabídnout.

Do budoucna je otázkou udržitelnost a pokračování projektu, v současné chvíli je hledána aktivně spolupráce, další partneři či dokonce patroni projektu, kteří by se jej dále ujali. Logicky připadá v úvahu nepříliš mnoho institucí, svou velikostí a odpovídajícím zastřešením by vyhovovaly např. OCLC nebo Library of Congress, partneři jsou hledáni i v soukromé sféře, z velké části mezi vydavateli.

Obsah a forma

Podle zpráv o stavu obsahuje databáze momentálně přibližně 1,5 milionu knih, lze sledovat aktuální vývoj a také rozložení fondu podle jazyků, předmětu a roku.

Momentálně je většina knih/dokumentů ve formátu TIFF (kvůli vstupní kvalitě a extrakci dalších metadat, zejména základní paginace), jedním z plánů je převedení do formátu PDF, a to především proto, aby si mohl každý uživatel dokument stáhnout. Záznamy jsou dále poskytovány ve formátech PDF, HTML a META. Pro prohlížení je třeba si nainstalovat plugin pro formát DjVu nebo plugin pro formát TIFF (odkazy viz úvodní stránka).

Záznam je vybaven základními metadaty - název, autor, předmět, jazyk, rok, vydavatel, informace o copyrightu a jeho upřesnění (např. Out of copyright - upřesnění pre 1923 books), země (pravděpodobně zpracování, nikoli vydání), počet stran a jednoznačný identifikátor v číselné podobě. Následuje obsah knihy rozdělený do kapitol, které jíž slouží jako odkazy „do“ knihy. Lze skrýt či zobrazit obsah. Není však zcela jasné, jakým způsobem jsou pořizována metadata.

Po kvalitativní stránce má systém nedostatky, je vidět, že primárním cílem byla kvantita. Velké množství knih je opatřeno rokem vydání „0“, pak je kniha zpravidla pro uživatele nepřístupná, neboť tím pádem není znám status autorského práva. Pokud dokument není vybaven detailní osnovou (míněno hypertextovou strukturou dokumentu), drží se struktury cover-content-cover-back. V systému se již teď vyskytují duplicitní záznamy. Pozitivní je podpora širokého spektra jazyků (i mimo latinku).

Vyhledávání, prohlížení a další funkčnost

Hned na úvodní stránce digitální knihovny nás čeká pole pro jednoduché vyhledávání (jen!) v názvech, výhodou je, že zůstává stále k dispozici v průběhu vyhledávání a prohlížení záznamů (nikoliv dokumentů). Zadáním dotazu do tohoto pole se provede vždy nové hledání, neslouží k upřesnění již existující sady výsledků. Po zadání dotazu se zobrazí seznam výsledků v poněkud netradičním formátu, obrazovka je rozdělena na dvě části, v levé je seznam, v pravé se po kliknutí na položku ze seznamu objeví záznam s metadaty. Stránka dále nabízí informaci o počtu nalezených dokumentů a stránek odpovídajících dotazu. Trochu zlobí stránkování seznamu výsledků vyhledávání (v prohlížečích Microsoft Internet Explorer i Mozilla), nezobrazuje se často relevantní počet stránek, při kliknutí na poslední se uživateli zobrazí jen prázdné rámce. Není zřejmé, jak je seznam výsledků seřazen. Podstatnou nevýhodou je, že se seznamem výsledků nelze nijak dále pracovat, uživatel je tedy odkázán na použití pokročilého vyhledávání.

Pokročilé vyhledávání nabízí vyhledávání v polích název, autor, předmět (výběr mezi 50; i předmět může být samostatný vyhledávací dotaz), jazyk (24), umožňuje upřesnit časovou periodu (od-do) a zemi – v tomto případě narážíme pouze na výběr tří – Čína, Egypt, Indie, které s největší pravděpodobností odráží momentální zpracovatele fondu, tj. nejedná se o zemi vydání, v knihovně jsou již nyní dokumenty z mnoha států světa. V poslední řadě lze omezit počet zobrazených záznamů na stránku.

Pro uživatele, který v tuto chvíli asi těžko půjde do této knihovny jako do referenční, ale spíše ze zvědavosti, se jeví velice zajímavá možnost prohlížení. Lze prohlížet abecedně podle názvu knihy nebo příjmení autora, podle časových období (předem určených, nelze zvolit vlastní: 1500-1600, 1601-1700, 1701-1800, 1801-1850, 1851-1923, 1924-1940, 1941-1963, 1964-1980, 1981-2000, 2001-2007). Pro prohlížení podle předmětu máme k dispozici třináct kategorií; podle jazyka pak dvanáct.

Systém sází na zpětnou vazbu od uživatelů. V rámci každého záznamu je možné upozornit -pomocí formuláře, ve kterém již jsou všechna data týkající se konkrétního záznamu předvyplněna - pokud není záznam dostupný; druhým možným reportem je oprava metadat, v tomto případě se jedná o velmi jednoduchý, ale poměrně promyšlený nástroj, nabízí mj. zápis znaků v jiných písmech či identifikaci knihy pomocí paginace jednotlivých singifikantních stran knihy. Dále může uživatel u každého záznamu upozornit na problém s kvalitou nebo s copyrightem.

Celkové hodnocení

Jak je v článku řečeno, Universal Library a jeho první část, Million Book Collection, je velmi odvážným projektem. Jeho naplnění zcela jistě nikdy nebude kompletní, pokud se však podaří opravdu projekt alespoň částečně realizovat, přiblížíme se opět starověkému ideálu Alexandrijské knihovny s výhodou digitálního prostředí. Nechci být skeptik, ale pokud se projektu neujme „větší“ instituce, jeho realizace je dle mého názoru nejistá. Myšlenka je v současné době velmi zajímavá, neboť všichni cítí obrovský a nezvladatelný nárůst počtu a druhů digitálních knihoven, ve kterých se i informační specialisté těžko vyznají. Ideální by bylo, pokud by projekt tohoto rozsahu ve finální podobě tyto dílčí knihovny zastřešil. To však nechme budoucnosti. Nezodpovězenou otázkou (a výzvou!) zůstavá, je-li něco takového možné, a to nahlížíme-li ze všech stran – obsah, zpracování, integrace, forma...

V současné chvíli můžeme pozorovat evidentní tlak na kvantitu, kvalita je upozaďována. Vlastně zpětně bude pro knihovnu Million Book Collection provedena konverze do prohledávatelného formátu, vyhledávacímu rozhraní dosud příliš velká péče věnována nebyla. Obsahově prováděn výběr není, pravděpodobně se jedná o fondy partnerských institucí. Co dodat závěrem? Snad popřát autorům hodně energie, partnerů a financí a uživatelům trpělivost a zvědavost, kam se tento projekt vyvine.

Hodnocení systému:
Obsah:
Forma:
Funkčnost: