Česká digitální matematická knihovna (Miroslav Bartošek)
M. Bartošek z Masarykovy univerzity se ve svém příspěvku věnoval České digitální matematické knihovně, tj. DML-CZ. Jedná se o projekt zaměřený na pokročilou digitalizaci v oblasti matematiky (je realizován v letech 2005 až 2009 za podpory grantu AV ČR; projekt vede Matematický ústav AV ČR). Výsledkem projektu má být digitální knihovna špičkové české matematické literatury. V rámci digitální knihovny by měly být volně dostupné plné texty i metadata (základní popisná i speciální matematická metadata). 10. června 2008 se bude v Praze konat tzv. kick-off meeting, kdy bude projekt představen odborné matematické veřejnosti. Cíli projektu jsou výzkum a vývoj technologií (OCR, nástroje na tvorbu metadat), digitalizace a začlenění do světové WDML.
Podrobné informace o DML-CZ jsou k dispozici na adrese http://project.dml.cz/. Nyní je již zdigitalizováno cca deset matematických časopisů, dále jsou zahrnuty sborníky z konferencí a starší monografie, zejména soubory prací Bernarda Bolzana a vybrané monografie předních matematiků (ty, u nichž to dovolují autorská práva). V knihovně jsou zařazeny digitalizované dokumenty (původní tištěné dokumenty), dále dokumenty z let 1991-2007, což jsou dokumenty tzv. retro-born-digital (předlohy jsou částečně v digitální formě) a digital-online (od roku 2008).
M. Bartošek představil i workflow – je prováděna příprava materiálů, digitalizace, OCR, tvorba referenčních metadat, integrace a import do digitální knihovny. Hlavním nástrojem pro integraci je metadatový editor. Integrační workflow zahrnuje vytvoření článků, získání či vytvoření článkových metadat, seznamů referencí, dále generování článků do formátu PDF a export do digitální knihovny pro uživatele.
Vytváření článků probíhá automaticky – na základě referenčních metadat a automatické detekce začátku článků prostřednictvím OCR. Následuje ruční kontrola a opravy. Článková metadata jsou stažena, kontrolována, popř. doplněna nebo nově vytvořena. Je identifikován seznam referencí – vyhledání bloku referencí a identifikace jednotlivých referencí, dále jsou propojeny se záznamy v dalších matematických databázích. Pokud se týká generování článků v PDF, jsou vytvářena dvouvrstvá PDF (obraz stránky a text získaný pomocí OCR).
Při vytváření digitální knihovny byly zvažovány dvě možnosti – nově vytvořená aplikace, nebo využití otevřeného repozitářového systému. Byla zvolena druhá možnost, konkrétně systém DSpace, dále je ještě využíván systém Manakin. Nyní je v digitální knihovně cca 170 000 stran a 16 000 digitalizovaných článků. Digitální knihovna je k dispozici na adrese http://www.dml.cz/.
(text konferenčního příspěvku)
(ls)