Možnosti využití digitálního archivu Národní knihovny ČR
Otázkám digitalizačních aktivit Národní knihovny ČR (přehledně jsou popsány přímo na jejích stránkách [7]) se věnuje mnoho odborníků a čas od času informace o postupu projektu proniknout i do popularizačních periodik (např. 16. května 2018 o plánu a dosavadním postupu informoval článek na serveru Novinky.cz s titulkem Národní knihovna přechází do digitálního věku, čekají ji desítky let skenování [8]).
Obvykle je zdůrazňován především objem zpřístupněných dat vyjádřený v počtu naskenovaných stran či svazků, avšak s tím, jak práce pokračují, skenery za posledních několik let převedly do elektronické podoby statisíce dokumentů (o rok později, 15. července 2019 hlásal titulek článku na serveru Lupa.cz Národní knihovna: V úložišti máme 270 TB dat, digitalizováno je téměř 56 milionů stran [9]), a jejich obsah i metadata se tím stala čitelnými a tedy i prozkoumatelnými pomocí výpočetní techniky. O to aktuálněji se nabízí otázka, co teď s nimi? Jak podnítit u akademické a širší odborné veřejnosti zájem o tento bohatý zdroj digitalizovaného národního dědictví? Doslova nám tu totiž leží před nosem terabajty vzrušujícího materiálu pro bádání a objevování.
V reakci na tento stav, který je sice zodpovědným subjektům znám, avšak pro plné vytížení pracovišť samotným procesem digitalizace se už Národní knihovně ČR (NK) nedostává kapacity k jeho systematickému řešení, vznikl v lednu 2019 projekt spolupráce se Studii nových médií při Filozofické fakultě Univerzity Karlovy nazvaný Národní knihovna VS. Digital humanities [10]. Obecným cílem této synergie bylo podívat se novým pohledem na stávající praxi digitalizace a rozšíření potenciálních možností práce s dostupnými tady. Konkrétněji to znamená: jak by se dalo osvěžit současné rozhraní systémů NK, aby nabízelo více možností práce s daty a v posledku také působilo atraktivněji. A jak ukázat badatelům, co všechno se s digitalizovanými daty dá dělat.
Tento článek představuje uchopení nastíněného problému studenty Studií nových médií. Vedle brožury [11], ve které jsou zpracovány všechny poznatky a tipy pro zaměstnance knihovny, a její živé prezentace jde o další z výstupů této spolupráce.
Chytře hledat
První a zároveň nejdůležitější výzvou projektu se stalo přesné pochopení problému a jeho souvislostí lokálních i časových (knihovna nejen digitalizaci provádí, ale zároveň je pro ni klíčové zajistit přístupnost v dlouhodobém horizontu). Ze schůzek se zodpovědnými pracovníky a samostatného seznámení se s fungováním digitální knihovny bylo zjištěno, že prvním krokem musí být kritická reflexe online rozhraní, jež vstup do archivu uživatelům zprostředkovává. Toto rozhraní (Kramerius) prochází více či méně pravidelně úpravami a získává vylepšení, jeho čtvrtá verze, která byla v době začátku spolupráce nasazena, nebyla z nejpříjemnějších a to ani v objektivních kritériích funkčního zpřístupňování obsahu. Vyplynul z toho jasný úkol, prostudovat konkrétní realizace zahraniční digitálních knihoven a archivů.
Ačkoliv je v okamžiku publikace tohoto článku již nasazena pátá verze Kramerius, o poznání podařenější z hlediska uživatelského zážitku i funkcí, zpracovaná rešerše zahraniční praxe stále nabízí cenné odpovědi ve třech oblastech. Jak vypadají taková rozhraní evropských knihoven? Jaké používají vyhledávací funkce? Jaké funkce nabízí rozhraní výzkumníkům? Se zjištěními je možné se podrobně seznámit v brožuře Co nabízí digitální archiv Národní knihovny? [11] Ačkoliv byla vytvořena primárně pro zaměstnance NK jako pomůcka pro rozvoj a další úpravy online rozhraní Kramerius, ve třech kategoriích ukazuje, jakými funkcemi ze zahraničí se lze nechat inspirovat, praktická doporučení v ní naleznou všichni zájemci o funkční přístup k současnému designu služeb pro zpřístupnění digitálního dědictví. V tomto článku je dále představen vždy jeden vybraný příklad z každé kategorie.
V části nazvané možnosti vyhledávání se brožura zaměřujeme ryze na vyhledávací funkce. Skvělým příkladem je nápad knihovníků z Finska, kteří v archivu Finna [12]nabízí možnost vyhledávání dle lokace. Nejde ale o pouhé zadání místa vydání. Uživatel namísto toho na mapce určí kruh (popřípadě může kombinovat více kruhů) a získat veškeré texty, které vznikly v takto definované oblasti. Tato inovativní práce s metadaty umožňuje bádat například nad regionální literaturou.
[13]
Ukázka rozhraní pro lokální vyhledávání v knihovně Finna
V části možnosti další práce brožura ukazuje, jak v rozhraní vyhledávače ještě jinými způsoby pracovat s nalezeným textem. Příkladem je systém univerzity ve Stanfordu Lacuna [14]. Ten nabízí kolektivní práci nad dokumentem: ostatní mohou spatřit, co si jednotliví uživatelé podtrhli, jaké používali štítky nebo jak komentovali různé pasáže. Vidíme tak v online prostředí prostor pro přemýšlení nad tím, co asi znamená podtržení v knížce půjčené z knihovny nebo získané z antikvariátu (v offline světě typicky anonymní).
[15]
Ukázka rozhraní univerzity ve Stanfordu Lacuna
Poslední část je nazvána možnosti zobrazení. Jednoduchým, ale neobyčejně šikovným vylepšením rozhraní může být zobrazení dvou knih naráz. To totiž umožňuje pohodlně porovnávat různé edice, mapy téhož území nebo cokoliv dalšího.
Zatraktivnit
Možným řešením, jak zatraktivnit badatelkou práci s digitalizovanými dokumenty NK, je soustředit se na dobré příklady práce s těmito daty za pomocí metod souhrnně označovaných jako digital humanities. Označení digital humanities si pro svoji relativní neukotvenost v českém prostředí zasluhuje krátké představení. Josef Šlerka je definuje jako: “reakce humanitních a sociálních věd na rozvoj výpočetní techniky a nových (digitálních) médií od poloviny minulého století. S nástupem počítačů se postupně objevují projekty využívající jejich výpočetní sílu a možnosti zpracovávat množství informací, kterou jsou jinak prakticky neuchopitelné jednotlivcem.” (Šlerka, 2015) Tento přístup radikálně proměňuje mnoho vědních oborů, dosud však není příliš rozšířený v obecném povědomí, s nedůvěrou a představou komplikovanosti k němu často přistupují i členové akademické obce.
V již výše zmíněné brožuře [11] lze nalézt představení 7 pečlivě vybraných výzkumů a praktických užití digital humanities. Tato část především ukazuje využití tohoto přístupu ve více oborech s různým zaměřením tak, aby bylo patrné, jak je možné kreativně pracovat s digitálními daty NK při využití dostupné výpočetní kapacity a propojovat je do inovativních celků. V následujících odstavcích představujeme jeden z těchto příkladů.
Příklad v zahraničí zpracovaného digital humanities projektu
V žánru knih s romantickou tématikou (zejména ve známé edici Harlequin) je možné pozorovat jev nazývaný jako úpadek slovní zásoby. To znamená, že s tím, jak kniha postupuje ve svém ději, autor používá stále jednodušší popis scény, soustředí se spíše na dialogy a proto dochází k onomu úpadku. Jack Elliott se rozhodl tuto tezi ověřit s pomocí strojově rozpoznaného textu (OCR) více než sta knih z edice Harlequin (Elliott, 2016). Každou z nich rozdělil na deset dílů a ty poté s pomocí digital humanitiesmetod analyzoval v pestrosti slovní zásoby.
Poté, co se Elliottova hypotéza na korpusu knih Harlequin potvrdila, začal ještě zkoumat, proč k tomuto jevu dochází. Zda tedy jde o vlastnost typickou pro romantický žánr, nebo je to naopak důsledek tlaku na autory, kteří jsou nuceni (či dobrovolně chtějí) produkovat mnoho knih v krátkém čase, a proto se postupně při psaní uchylují k jednodušší slovní zásobě. Pro získání odpovědí byly analyzovány i knihy Jane Austenové, jež se obvykle rovněž řadí mezi autory romantické literatury. Tato autorka ovšem nebyla pod výrazným ekonomickým tlakem, psala dle dokladů velmi pomalu a pečlivě. Stejným způsobem bylo prozkoumáno i dílo Charlese Dickense, jenž sice nepsal romány o lásce, ale je o něm známo, že holdoval produkování velkého množství textu v krátkém čase (Elliot, 2016, s. 330).
Elliotův výzkum jasně prokazuje, že onen úpadek slovní zásoby se ukazuje i u neromantika Ch. Dickense, zatímco u J. Austenové pozorovatelný není, není tedy nutně spojen s dobou, ve které texty vznikly, či jejich tématem. Praktická jednoduchost řešení výzkumu (potřebná funkce nevyžaduje speciální znalost programování, dostupná je například i v online bezplatném nástroji pro analýzu textových korpusů Voyant tools [16]) umožňuje prozkoumat v krátkém čase velké množství rozsáhlých textů, metodu by tak bylo možné díky zpřístupnění textů v digitálním archivu NK použít snadno i v českém literárním diskurzu. Například by bylo možné zodpovědět otázku, zda dochází ke ztrátě pestrosti slovní zásoby u našich velikánů s grafomanskými sklony jako byl Karel Čapek.
Vytvořit ukázkový příklad
Poslední část projektu spočívala ve vytvoření vlastní příkladové ministudie využívající digital humanities, na které bylo možné demonstrovat praktickou práci s daty dostupnými v NK. Na výsledek studie ve formě mapové vizualiace [17], který je prezentován na vlastní mikrostránce, se může knihovna snadno odkazovat jako na příklad dobré praxe - nejedná se již jen o principiální představení možností využití digital humanities, výsledkem je funkční prototyp, ke kterému je veřejně dostupná veškerá datová dokumentace [18] i podrobný “recept”.
[19]
Ukázka mapové vizualizace českých romantických autorů v Carto
Studie ve výsledné vizualizaci odpovídá na otázku, jak vidí čeští romantičtí spisovatelé svou vlast (v geografickém smyslu). Základním kamenem pro její zodpovězení byl přístup ke strojově čitelným textům jejich děl, následně bylo možné za pomoci skriptů, spolupráce s odbornou komunitou a trochou ruční práce (dočištění dat) strojově zjistit, o jakých místech spisovatelé ve svých dílech psali. Výstupem je mapa, která ukazuje jednotlivé lokace, o nichž se zmiňují romantičtí autoři vybraní do zkoumaného vzorku. Interaktivní povaha zpracování zároveň počítá i počet zmínek o konkrétním místě a v neposlední řadě nese v detailu i informaci o tom, ve kterém díle se objevilo. Vizualizaci by tak mj. bylo možné nabídnout třeba čtenářům jako praktickou pomůcku, kam se vydat o víkendu na výlet třeba podle Jana Nerudy.
Realizace probíhala v postupných krocích, které se odvíjely od přístupu ke strojově rozpoznanému textu (OCR) knih, ta byla uložena ve formátu jedna stránka – jeden dokument. Nejprve bylo sloučeny do jednotlivých knih, následně z nich byl s pomocí programu RStudio (a relevantní veřejně dostupné knihovny) vyfiltrován seznam vlastních jmen v textu. Seznam byl strojově porovnán s hesly na Wikipedii, čímž do přehledu pro jednotlivé knihy (stávající se ze získaných vlastních jmen) přibyl i sloupec s počtem zmínek, spočítaný jednoduchým skriptem. Ruční práce byla nutná pouze ve formě průběžné kontroly vyhledaných vlastních jmen - část z nich totiž neoznačovala lokace, od těch bylo nutné seznam očistit. Výsledný dataset jmen bylo nakonec zapotřebí obohatit o geolokační údaje pro snadné nanesení na mapu, přičemž v tomto bodě bylo nutné zanedbatelný zlomek doplnit ručně. Pro vizualizaci zkompletovaných dat posloužilo online rozhraní Carto [20], které umožnilo použít i některé interaktivní prvky. Jde o již zmíněné možnosti ukázání, o jaké dílo se jedná, kolikrát bylo místo zmíněno či jestli o jednom místě referuje více knih.
Závěr
Spolupráce obou institucí nabídla prostor pro společnou diskusi, sdílení nápadů i kreativní zpracování, v krátké době jednoho vysokoškolského semestru propojila nápady a schopnosti studentů FF UK s reálnými potřebami praxe NK. Výsledek ve svojí mnohosti reaguje na všechny na začátku vytyčené cíle. Knihovníkům i všem dalším informačním pracovníkům knihovny nejen ukazuje, jakými cestami se lze ubírat při dalším vývoji nástrojů zpřístupňující naše kulturní dědictví, ale dává jim k dispozici také příklady, jak badatelům i širší odborné veřejnosti prezentovat, že metody digital humanities mohou poměrně jednoduše nabídnout netriviální vhledy a zbrusu novým způsobem rozšiřovat lidské poznání.
Celé digitalizační snažení NK můžeme vnímat jako snahu o zachycení, zachránění něčeho plynoucího. Smysluplně “rezignovalo na bezprostřední jedinečnost, s níž původně spojuje 'nekonečné bohatství', jež se však ve skutečnosti vyjevuje jako měna, která je 'falešná', neboť nemůže být sdílena.” (Matějčková, 2018, s. 48) Touto obdivuhodnou snahou je inspirován i tento článek, když se snaží nabídnout výsledky a zjištění v otevřené formě všem zájemcům z řad obce knihovnické, akademické i zájemců z řad veřejnosti.
- ELLIOTT, Jack, 2016. Vocabulary decay in category romance. Digital Scholarship in the Humanities. 31(2), 321-332. DOI: 10.1093/llc/fqu069 [21]. ISSN 2055-7671. Dostupné také z: https://academic.oup.com/dsh/article-lookup/doi/10.1093/llc/fqu069 [22]
- MATĚJČKOVÁ, Tereza. Hegelova fenomenologie světa. Praha: Filosofický ústav AV ČR, 2018. Oikúmené. ISBN 978-80-7298-338-4
- ŠLERKA, Josef. Digital Humanities – stručné vymezení. In: databoutique.cz [online]. 7. 12. 2015. Dostupné z: https://databoutique.cz/post/134731748723/digital-humanities-stručné-vymezení [23]