Vplyv tlače a písma na výsledok procesu digitalizácie
Úvod
V súčasnej dobe je digitalizácia dokumentov veľmi aktuálna. Prebieha digitalizácia nášho kultúrneho a písomného dedičstva. Oblasťou digitalizácie sú kultúrne objekty, ktoré dokladujú vývoj, súčasný stav a fungovania slovenského jazyka, zbierky knižníc (noviny, časopisy, knihy, hudobniny, kartografické materiály apod.), historické knižničné dokumenty a fondy, vysokoškolské, záverečné, kvalifikačné práce (angl. Electronic Theses and Dissertations, skratka ETD), zbierky múzeí a galérií, dokumenty a výtvory vedy, techniky, hnuteľné a nehnuteľné pamiatky, archeologické pamiatky, archívne dokumenty, pamiatkový fond, tradičná ľudová kultúra, diela hudby, literatúry, dramatického umenia, tanca a scénografie, diela filmu, fotografie, audiovízie, diela výtvarného umenia, diela úžitkového umenia, dizajnu a architektúry, diela ľudového umenia a ľudovej umeleckej výroby. [1]
V našom výskume sa zameriame na historické knižničné dokumenty, a to z pohľadu kvality digitalizácie v závislosti od ich jazyka a typu písma.
Objekt výskumu
Obsah knižníc v minulosti i prítomnosti sa rozhodujúcou mierou zúčastňoval a zúčastňuje na výmene informácií a výstavbe duchovných hodnôt spoločnosti. Každá národná kultúra sa usiluje primeraným spôsobom zachovať, interpretovať a využívať písomné kultúrne dedičstvo zhromaždené v knižniciach, archívoch, múzeách alebo jednotlivcami. Súbor tohto písomného kultúrneho dedičstva nazývame národným knižničným fondom, ktorý je umiestnený v rôznom geografickom a inštitucionálnom priestore. Vytvára archív najdôležitejších informačných a dokumentových hodnôt. Ich výskum a poznanie nám prináša autentické svedectvo o dejinách národa, hospodárskom, politickom, kultúrnom a spoločenskom živote rôznych vrstiev spoločnosti.
Historickú knižnicu nemôžeme považovať len za súbor uložených dokumentov, ale v prvom rade za komunikáciu hodnôt, ich recepciu, výmenu a obohatenie. Historické knižnice disponujú nesmiernym informačným bohatstvom, ktoré má v prípade použitia adekvátnych riešení predpoklad vytvoriť digitálny obsah vysokej intelektuálnej kvality. Tematická rôznorodosť predstavuje špecifický obsah určený špecifickým skupinám používateľov.
Predpokladáme, že jazyk a písmo majú kľúčový význam pre efektívnosť a kvalitu digitálneho obsahu. Vlastnosti spomínaných objektov (jazyku a písma) sú kľúčové prevažne u starých tlačí. V novších dokumentoch (po roku 1918) by písmo a jazyk nemali predstavovať veľký problém pri vytváraní digitálneho obsahu.
V našom výskume sa zameriavame na typológiu písma v historických slovacikálnych tlačených dokumentoch od najstarších čias (16. storočie) do roku 1918. Historický slovacikálny dokument je knižničný dokument, ktorý sa podľa autorstva, jazyka, miesta vydania alebo obsahu týka Slovenska alebo Slovákov a bol vydaný alebo vytlačený do roku 1918.
Cieľ výskumu
Primárnym cieľom nášho výskumu je na základe jednotlivých výstupov zo skenerov navrhnúť optimálne pravidlá digitalizovania starých slovacikálnych dokumentov pre vytvorenie čo najkvalitnejšieho a použiteľného digitálneho obsahu v rámci historických knižníc.
Pre prehľadnosť a využiteľnosť daných poznatkov bude vytvorený katalóg, ktorý bude súborom všetkých typov písiem, ktoré sa používali v našom geografickom priestore viac ako štyri storočia. Predpokladáme, že niektoré sady písiem nájdeme u viacerých tlačiarov, pretože jednotlivé sady častokrát postupne vlastnili viacerí tlačiari. Súbor typov písma – katalóg typov písma bude obsahovať všetky typy písiem, s ktorými sa počas výskumu stretneme a popis optimálneho nastavenia skenerov (ručných a automatických digitalizačných robotov) pri tvorbe digitálneho obsahu tlačovín využívajúcich dané typy písiem.
Postup riešenia
Vychádzame:
- zo základnej literatúry, ktorá sa venuje vývoju písma a poskytne nám priestor na identifikáciu možných typov písma, ktoré sa vyskytujú v historických slovacikálnych dokumentoch:
- Dejiny a vývoj nášho písma (Húščava, A., 1951),
- Dejiny písma, knihy a kníhtlače (Mišianik, J., 1956),
- Dejiny písma a knihy (Špetko, J., 1963),
- Knižná kultúra a písmo (Špetko, J., 1969).
- zo zoznamu tlačiarov a tlačiarní na Slovensku od 16. do 20. storočia (viď. Tab. 1), na základe analýzy historických knižničných dokumentov pripravených Mgr. Evou Augustínovou, PhD. [2], ktorý bude základom pre výber vzoriek tlačí použitých pri našom výskume.
Výskumná vzorka
Na základe zoznamu tlačiarov vyhľadávame v retrospektívnych bibliografiách[1] dostupné dokumenty a následne z nich pripravujeme digitálne vzorky. Pri príprave digitálneho obrazu dokumentu pracujeme na dvoch typoch skenerov – Treventus a klasickém ručném skeneru Bookeye. Ako výskumnú vzorku sme si určili minimálne tri tlače vyprodukované u jedného tlačiara, a to zo začiatku, stredu a konca jeho pôsobenia. Prioritným záujmom bude jazyk dokumentu, zameriame sa najmä na tlače v slovenskom jazyku (podklad pre národný korpus slovenského jazyka), takisto ako vzorku však použijeme aj tlače v iných jazykoch, tieto vzorky však zúžime na jeden analyzovaný exemplár z každého jazyka.
Každý z vytypovaných dokumentov skenujeme v troch rôznych nastaveniach DPI. Skúmame rozdiely v kvalite digitálneho obrazu a jeho prezentácii v digitálnom priestore pri nastaveniach 150, 300 a 600 DPI na oboch skeneroch.
Vytvorené skeny budú následne prechádzať systémom OCR (Optical character recognition), ktorého výstupy nám poslúžia ako výsledné objekty skúmania.
Optical character recognition je metóda, ktorá nám umožňuje preklopenie obrazu tlačených znakov do textovej formy, ktorá sa dá následne editovať. Pre potreby nášho výskumu použijeme OCR software ABBYY FineReader OCR. Daný software nám umožní z obrazu zoskenovaných strán historických dokumentov vytvoriť textovú formu dokumentu. Tento krok je potrebný pre ďalšie optimálne využívanie digitálneho obsahu. Zoskenovaná strana dokumentu sa tak bude správať ako klasický textový dokument. Pre optimálne rozpoznanie obrazu do textu je potrebné využitie lingvistických prvkov pre správne preloženie slov a viet. Technika generovania textu zo zoskenovaného obrázku knihy dokáže pracovať len s kvalitným obrazom, preto budeme v rámci nášho výskumu vytvárať viaceré skeny jedného dokumentu v rôznych DPI rozlíšeniach a následne výstupy OCR porovnávať.
Mesto |
Počet tlačiarní, tlačiarov |
Mesto |
Počet tlačiarní, tlačiarov |
Banská Bystrica |
20 |
Prešov |
11 |
Banská Štiavnica |
17 |
Púchov |
5 |
Bardejov |
13 |
Revúca |
4 |
Bratislava |
88 |
Rimavská Sobota |
8 |
Bytča |
2 |
Rožňava |
6 |
Čadca |
2 |
Ružomberok |
3 |
Dolný Kubín |
4 |
Senica |
3 |
Holíč |
3 |
Sereď |
2 |
Jasov |
2 |
Skalica |
10 |
Kežmarok |
8 |
Spišské Podhradie |
4 |
Komárno |
26 |
Šamorín, Mliečno |
3 |
Košice |
41 |
Topoľčany |
3 |
Kremnica |
2 |
Trenčín |
8 |
Levice |
4 |
Trnava |
19 |
Levoča |
21 |
Zlaté Moravce |
6 |
Liptovský Mikuláš |
4 |
Zvolen |
7 |
Lučenec |
8 |
Žilina |
8 |
Malacky |
4 |
Komjatice, Košice, Plavecké Podhradie, Rohožník, Šintava |
6 |
Nitra |
13 |
Tabuľka 1 Počet tlačiarov a tlačiarní na Slovensku podľa miest.
Výskumný formulár
Výsledky výskumov každej výskumnej vzorky budú zapisované do formulára. Každá výskumná vzorka bude mať pridelený svoj formulár, ktorý bude obsahovať meno tlačiara a rok vydania. Tieto údaje sú potrebné pre následné digitalizovanie ďalších historických dokumentov, kde na základe uvedených údajov budeme vedieť presne určiť ako majú byť prístroje nastavené pre optimalizáciu tvorby digitálneho obsahu ďalších kníh.
Ďalšími údajmi vo formulári sú jazyk dokumentu, typ písma a rozmer dokumentu. Tie údaje nám poskytnú doplňujúce informácie o dokumente. Najpodstatnejším z daných údajov je jazyk dokumentu, keďže sa zameriavame hlavne na dokumenty písané v slovenskom jazyku.
Nasledujúce údaje budú zaznamenávané samostatne pre Automat Treventus a samostatne pre manuálny ručný skener Bookeye. Ide o nasledujúce údaje: čas skenovania, hodnoty DPI a údaje z OCR.
Vzhľadom k tomu, že nebudeme vykonávať komplexné skeny celých dokumentov, ale len niekoľkých strán, budeme uvádzať čas skenovania jednej, maximálne dvoch strán dokumentu. Z daného údaju sa tak dá odvodiť približný čas skenovania celého dokumentu. Tento čas je samozrejme orientačný, pretože počas skenovania môžu nastať rôzne komplikácie, ktoré tento čas predĺžia.
Kvalitu skenovania budeme skúmať pri hodnotách 150, 300 a 600 DPI. Pri jednotlivých hodnotách budeme skúmať rozdiely v kvalite vytvoreného skenu a jeho čitateľnosti. Predpokladáme, že všetky historické dokumenty bude potrebné skenovať s hodnotami 600 DPI na optimalizáciu následnej práce s dokumentom.
Ako posledné záznamy do formulára budú vkladané informácie z OCR. Budeme podrobne zaznamenávať efektívnosť OCR bez akýchkoľvek nastavení. Zameriame sa na nerozpoznané písmená, slová a vety pri jednotlivých typoch písiem, údaje budeme uvádzať v percentách. Následne zaznamenáme čas trvania nastavenia OCR pre zefektívnenie procesu a vytvorenie kvalitnejšieho digitálneho obsahu. Tento čas budeme uvádzať v minútach. Posledným údajom pri oboch typoch skenerov bude efektívnosť OCR po vykonaných nastaveniach. Aj tento údaj bude uvádzaný v percentách a následne sa zameriame na rozdielne percentuálne údaje. Naším cieľom je, aby po nastaveniach bolo percento nerozpoznaného textu oveľa nižšie.
Štatistické vyhodnotenia jednotlivých výstupov a ich analýza, optimálne nastavenie budú základom pre vytvorenie vzorkovníka typov písiem a databázy s potrebnými údajmi pre zefektívnenie digitalizácie historických a nielen slovacikálnych dokumentov.
Digital model library |
||
Dates |
Notes |
|
Printer |
||
Year of publication |
||
Language |
||
Type of font |
||
Document Size (WxH) |
||
Automat Treventus |
||
Scan time |
||
150 dpi |
||
300 dpi |
||
600 dpi |
||
OCR - Efficiency OCR without settings (% ABBY FR) |
||
OCR – Efficiency OCR setting time (min) |
||
OCR - Efficiency OCR after settings (% ABBY FR) |
||
Manual handheld scanner |
||
Scan time |
||
150 dpi |
||
300 dpi |
||
600 dpi |
||
OCR - Efficiency OCR without settings (% ABBY FR) |
||
OCR – Efficiency OCR setting time (min) |
||
OCR - Efficiency OCR after settings (% ABBY FR) |
Tabuľka 2 Vzor záznamového formulára pre dokumenty.
Záver
Pri digitalizácií historických dokumentov treba prihliadať na typ písma a jazyk dokumentu. Výsledkom nášho výskumu bude modelový vzorkovník písma používaného v slovacikálnych historických tlačených dokumentoch, ktorý bude slúžiť ako podklad pre vytvorenie programu na kvalitné preklopenie obrazu tlačených znakov do textovej formy. Stane sa tak podkladom pre efektívne digitalizovanie písomného dedičstva Slovenska.
- KATUŠČÁK, Dušan. Stratégia digitalizácie kultúrneho, vedeckého a intelektuálneho dedičstva SR. [online]. [citované 23.03.2013]. Dostupné na internete: <http://www.p3.sk/domain/flox/files/download/Stratgia_digitalizcie_kultrneho,_vedeckho_a_intelektulneho_dediTstva.ppt [4]>.
- AUGUSTÍNOVÁ, Eva. Dejiny tlačiarní na Slovensku 16. – 19. storočie. Rukopis. 2002.
- Viz retrospektívnej bibliografie:
- RIZNER, Ľ.V. Bibliografia písomníctva slovenského na spôsob slovníka od najstarších čias do konca roku 1900.
- Turčiansky Sv. Martin : MS, 1929 – 1934. - MIŠIANIK, J. Bibliografia písomníctva slovenského na spôsob slovníka od najstarších čias do konca roku XIX. stor. (Doplnky k Riznerovej bibliografii).Bratislava : SAVU 1946. 300 s. -
- ORMIS, J.V. Doplnky a opravy k Riznerovej bibliografii písomníctva slovenského.Martin : MS, 1935-1952. - ČAPLOVIČ, J. Bibliografia tlačí vydaných na Slovensku do roku 1700. 1. diel. Martin : MS, 1972. 555 s. -
- ČAPLOVIČ, J. Bibliografia tlačí vydaných na Slovensku do roku 1700. 2. diel. Martin : MS, 1984. 556-1410 s. -
- FEDOR, M. Biliografia slovenských kníh 1901-1918. Martin : MS, 1964. 727 s. - KLIMEKOVÁ, A. a kol. Bibliografia územne slovacikálnych tlačí 18. storočia. 6 zväzkov Martin : Slovenská národná knižnica, 2008. – Databáza územne slovacikálnych tlačí 19. storočia. Lokálna databáza v Slovenskej národnej knižnici.