Zpráva ze semináře Kramerius 4
6. října 2010 se v prostorách Akademie věd ČR uskutečnil seminář Kramerius 4, na kterém byla odborné veřejnosti představena nová verze systému Kramerius [4] určeného zejména pro zpřístupnění digitalizovaných dokumentů.
Účastníky semináře přivítal Martin Lhoták, ředitel Knihovny AV ČR, v. v. i., (KNAV). Upozornil, že se jedná o první seminář, který je zaměřen pouze na systém Kramerius a navíc nabízí možnost osobně se setkat s vývojáři systému. Zdůraznil také, že nová verze Krameria, tj. verze 4, je výrazně odlišná od předchozí verze systému. Stručně představil historii vývoje systému, která sahá do roku 2003. První podnět pocházel z Národní knihovny ČR, do vývoje se následně zapojily KNAV a firma Qbizm technologies, a.s. Klíčovou změnou ve vývoji se stalo rozhodnutí o přípravě nové verze systému jako nadstavby nad repozitářem Fedora [5]. Z roku 2008 pochází praktické ověření možnosti využít toto řešení [6] (tzv. proof of concept). Na jeho základě bylo v roce 2009 vyhlášeno výběrové řízení, jehož cílem bylo získat dodavatele pro přípravu nové verze systému, tedy Krameria 4. Vítězem výběrového řízení se stala firma INCAD spol. s r. o. Dosavadní výsledky práce na systému Kramerius 4 byly zveřejněny 31. 8. 2010 (Ikaros o zveřejnění informoval formou krátké zprávy [7], pozn. red.). Z rozhraní systému je zřejmý důraz na vyhledávání, tj. na oblast, jíž se firma INCAD spol. s r. o. zabývá dlouhodobě.
Mezi nejpodstatnější požadované vlastnosti poptávané nové verze systému patřilo zachování stávající funkčnosti systému, využití repozitáře Fedora pro uložení dat, využití již zpracované studie typu proof of concept, podpora metadatového schématu ESE (Europeana Semantic Elements) prostřednictvím protokolu OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting) a podpora dalších typů dokumentů, např. článků a map (tj. nejenom monografií a periodik).
Mezi konkrétní úkoly na rok 2010 se pak řadily možnost generování náhledů, možnost volby dalších písmen při abecedním prohlížení titulů, podpora formátu dvouvrstvé PDF, vyhledávání podle časové osy (intervalu), možnost třídit výsledky vyhledávání nejenom podle typu dokumentu, ale mj. i podle názvu nebo časového období.
Hlavním zdrojem financování do roku 2011 je program výzkumu a vývoje Ministerstva kultury ČR, mezi další zdroje patří projekty Národní knihovny ČR a Moravské zemské knihovny. Potenciálními novými zdroji financování mohou být projekty z programů Veřejné informační služby knihoven (VISK) a Program aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI).
Tomáš Foltýn z Národní knihovny ČR přiblížil účastníkům semináře uživatelské rozhraní verze 4 systému Kramerius. Právě vylepšení uživatelského rozhraní patřilo mezi základní cíle vývoje této verze Krameria. T. Foltýn upozornil mj. na možnost kontextového vyhledávání. Uživatelské rozhraní názorně ukázal na příkladu testovací instalace na serveru Moravské zemské knihovny [8] (na semináři byla předvedena i testovací instalace na serveru KNAV). V horní části rozhraní se nachází okénko pro fulltextové vyhledávání. Je také nabízena možnost přepnutí rozhraní do anglické jazykové mutace (jazyk lze změnit v kterémkoliv okamžiku práce s rozhraním). Místo původního prohlížení po jednotlivých počátečních písmenech názvů titulů je nově možné prohlížení podle hlavního názvu a autora, přičemž začátek požadovaného výrazu se zapisuje do okénka a systém sám „našeptává“ možná dokončení výrazu. Z nich si následně uživatel vybírá výraz, který odpovídá jeho požadavku. Dále je možné si zobrazovat výsledky podle typu dokumentu, využívat interaktivní časovou osu či například získávat informace o nejnovějších či nejžádanějších titulech. Pokud si uživatel zvolí konkrétní typ dokumentu, může konkrétní dokument zvolit na základě hodnot faset (například podle dostupnosti, autorů a spoluautorů a jazyka u monografií). Novinkami ve verzi 4 jsou také zobrazení náhledů pomocí filmového pásu či možnost přibližovat si celé stránky a pohybovat s obrázky. Lze využít i pokročilého vyhledávání, popř. nápovědy (ta může být v každé instalaci upravena podle konkrétních potřeb dané instituce). Zatím není možné vyhledávat v rámci jednoho titulu, o tuto funkcionalitu by však měl být Kramerius v nejbližší době rozšířen. Stejně tak by ve vyhledaných dokumentech měly být v budoucnu zvýrazněny vyhledávané termíny (v případě využití formátu dvouvrstvé PDF).
Obdobně jako v předchozí verzi Krameria je i v nové verzi možné generovat soubory ve formátu PDF. Maximální počet stran generovaného souboru lze nastavit podle potřeby. Vzhledem ke skutečnosti, že vzniklé soubory ve formátu PDF jsou většinou velké, je však při nastavování vhodné brát ohled na výkon serveru a na požadavky na přenos dat.
Pokud se týká formátu pro zobrazení, je používán formát JPEG (oproti dříve preferovanému formátu DjVu, který v současné době již není příliš rozvíjen). V případě, že původní data nejsou ve formátu JPEG, je možné data do tohoto formátu nejprve konvertovat a pak uložit v systému, nebo lze využít konverze z původního formátu (tj. z DjVu) do formátu JPEG v okamžiku, kdy je daný obrázek požadován uživatelem. Jan Hutař z Národní knihovny ČR doplnil, že probíhá testování softwarů ImageMagick [9] a Kakadu [10] pro konverzi dat z formátu DjVu do formátu JPEG. Jako problematický moment se jeví významný nárůst velikosti souboru při této konverzi (v případě softwaru ImageMagick až desetinásobný). Řešením může být využití archivních souborů ve formátu JPEG, v tomto případě však závisí na způsobu jejich uložení (tj. na datové struktuře úložiště). Konverze dat mohou probíhat před jejich importem do nové verze Krameria či až dodatečně.
Jako další přednášející vystoupil Pavel Srb z KNAV, který si spolu s Martinem Dudou z téže instituce připravil příspěvek věnovaný administračnímu rozhraní Krameria 4. V KNAV probíhá testování systému Kramerius 4 s využitím dat z dřívější verze Krameria. K testování je využita instalace Krameria 4 na stolním počítači s běžnými parametry, vlastní data (obrázky a texty) jsou uložena na diskovém poli. Poznatky zjištěné při testování budou zveřejněny v rámci wiki na serveru Google Code, kde je také dostupný zdrojový kód Krameria 4 [11], a rovněž předány Digitalizačnímu centru KNAV.
P. Srb stručně představil tři hlavní způsoby importu dat do verze 4 Krameria. Data mohou být importována z dřívější verze Krameria (v tomto případě je nejjednodušší se přihlásit jako administrátor a použít funkci identifier list, díky které se Kramerius 4 spojí s předchozí verzí Krameria a získá seznam potřebných identifikátorů), mohou pocházet přímo z digitalizační linky nebo mohou být importována ve formátech FOXML, který využívá úložiště Fedora, nebo ve formátu v souladu se schématem DTD pro Krameria. Důležitá je také skutečnost, že za účelem správné indexace musejí být data vždy validní.
V grafickém rozhraní Krameria 4 je po přihlášení administrátora možné realizovat potřebné úlohy na všech úrovních (např. na úrovni celého periodika, ale i na úrovni jednotlivého obrázku), přičemž čím je úroveň vyšší, tím jsou úlohy náročnější na čas a výkon. U všech procesů je možné se podívat do logu a identifikovat případné problémy. Mezi ty může patřit například nesprávný výsledek importu v případě, kdy dva ročníky jednoho periodika náleží k jednomu roku. K řešení problémů je možné využít také elektronickou konferenci Kramerius [12].
V diskusi byla zmíněna i čtvrtá cesta importu dat, a to ve formátu METS, který používá Fedora. V tomto případě je však třeba počítat se skutečností, že Fedora podporuje jenom velmi konkrétní typ formátu METS.
Zmíněn byl také fakt, že zatím je dostupná základní dokumentace, ale není k dispozici podrobný uživatelský manuál. S jeho zpracováním se však v rámci dalšího vývoje počítá.
Vladimír Lahoda a Pavel Kocourek z firmy INCAD spol. s r. o. si připravili příspěvek zaměřený na vývoj systému a plán jeho rozvoje.
V. Lahoda připomněl, že v souvislosti s využitím serveru Google Code pro zveřejnění zdrojového kódu probíhá oproti předchozí verzi vývoj veřejně. Pro správu verzí zdrojového kódu je používáno systém Subversion (SVN). Rovněž je postupně doplňována dokumentace (na platformě wiki). Přednášející také shrnul požadavky na systémový software, který je pro provozování systému Kramerius 4 potřebný: Java 1.6, webový server (Apache), aplikační server (Tomcat, JBoss), databáze (PostgreSQL) a dokumentové úložiště (Fedora). Mezi podstatné výhody Krameria se řadí škálovatelnost.
P. Kocourek se zaměřil na představení dalších kroků, které budou realizovány v následujících měsících. Patří mezi ně přidávání dalších funkcí, optimalizace, příprava editoru pro přesun obrázků a vylepšení grafických nástrojů pro konverzi dat z předchozí verze Krameria a pro jejich import. Počítá se také například s přidáním možnosti vytváření nových dokumentů (i takových, které by využívaly části různých původních dokumentů). Bude taktéž možné upravit vzhled rozhraní tak, aby mohl být Kramerius lépe zakomponován do webu dané instituce (knihovny).
V diskusi mj. M. Lhoták doplnil, že v KNAV je počítáno s ostrým přechodem na novou verzi Krameria na počátku roku 2011 (data budou do formátu JPEG konvertována z formátu TIFF). Proběhla také diskuse o otázce možného přidání metadatového editoru do systému Kramerius. K sladění dat v různých systémech je pak možné použít výstupy z projektu Registr digitalizace [13]. Bylo také upřesněno, že původní návrh využití systému Drupal pro prezentační rozhraní [14] nebyl realizován, a to zejména z technologických důvodů (Drupal je napsán v programovacím jazyce PHP, ostatní části systému Kramerius – včetně repozitáře Fedora – využívají jazyk Java).
Závěrem je možné shrnout, že seminář proběhl velmi interaktivní formou, členové vývojového týmu odpověděli v průběhu celého setkání na řadu dotazů z pléna. Účastníci semináře byli také vyzváni k využití elektronické konference a platformy Google Code pro sdílení poznatků či kladení dotazů.