Sorry, you need to enable JavaScript to visit this website.

Vplyv tlače a písma na výsledok procesu digitalizácie

Čas nutný k přečtení
8 minut
Již přečteno

Vplyv tlače a písma na výsledok procesu digitalizácie

0 comments
Anglicky
English title: 
The influence of printing and lettering on the digitization process result
English abstract: 
The article briefly presents a research on the influence of printing and lettering on the digitization process result which is the main focus of author’s dissertation thesis. It is assumed that language and various types of lettering hold a key importance for the effectivity and quality as well as usability of digital content. The text also analyses the research process with the aim to confirm said hypothesis and necessary steps leading to the establishment of a comprehensive book of lettering samples.

Úvod

V súčasnej dobe je digitalizácia dokumentov veľmi aktuálna. Prebieha digitalizácia nášho kultúrneho a písomného dedičstva. Oblasťou digitalizácie sú kultúrne objekty, ktoré dokladujú vývoj, súčasný stav a fungovania slovenského jazyka, zbierky knižníc (noviny, časopisy, knihy, hudobniny, kartografické materiály apod.), historické knižničné dokumenty a fondy, vysokoškolské, záverečné, kvalifikačné práce (angl. Electronic Theses and Dissertations, skratka ETD), zbierky múzeí a galérií, dokumenty a výtvory vedy, techniky, hnuteľné a nehnuteľné pamiatky, archeologické pamiatky, archívne dokumenty, pamiatkový fond, tradičná ľudová kultúra, diela hudby, literatúry, dramatického umenia, tanca a scénografie, diela filmu, fotografie, audiovízie, diela výtvarného umenia, diela úžitkového umenia, dizajnu a architektúry, diela ľudového umenia a ľudovej umeleckej výroby. [1]

V našom výskume sa zameriame na historické knižničné dokumenty, a to z pohľadu kvality digitalizácie v závislosti od ich jazyka a typu písma.

Objekt výskumu

Obsah knižníc v minulosti i prítomnosti sa rozhodujúcou mierou zúčastňoval a zúčastňuje na výmene informácií a výstavbe duchovných hodnôt spoločnosti. Každá národná kultúra sa usiluje primeraným spôsobom zachovať, interpretovať a využívať písomné kultúrne dedičstvo zhromaždené v knižniciach, archívoch, múzeách alebo jednotlivcami. Súbor tohto písomného kultúrneho dedičstva nazývame národným knižničným fondom, ktorý je umiestnený v rôznom geografickom a inštitucionálnom priestore. Vytvára archív najdôležitejších informačných a dokumentových hodnôt. Ich výskum a poznanie nám prináša autentické svedectvo o dejinách národa, hospodárskom, politickom, kultúrnom a spoločenskom živote rôznych vrstiev spoločnosti.

Historickú knižnicu nemôžeme považovať len za súbor uložených dokumentov, ale v prvom rade za komunikáciu hodnôt, ich recepciu, výmenu a obohatenie. Historické knižnice disponujú nesmiernym informačným bohatstvom, ktoré má v prípade použitia adekvátnych riešení predpoklad vytvoriť digitálny obsah vysokej intelektuálnej kvality. Tematická rôznorodosť predstavuje špecifický obsah určený špecifickým skupinám používateľov.

Predpokladáme, že jazyk a písmo majú kľúčový význam pre efektívnosť a kvalitu digitálneho obsahu. Vlastnosti spomínaných objektov (jazyku a písma) sú kľúčové prevažne u starých tlačí. V novších dokumentoch (po roku 1918) by písmo a jazyk nemali predstavovať veľký problém pri vytváraní digitálneho obsahu.

V našom výskume sa zameriavame na typológiu písma v historických slovacikálnych tlačených dokumentoch od najstarších čias (16. storočie) do roku 1918. Historický slovacikálny dokument je knižničný dokument, ktorý sa podľa autorstva, jazyka, miesta vydania alebo obsahu týka Slovenska alebo Slovákov a bol vydaný alebo vytlačený do roku 1918.

Cieľ výskumu

Primárnym cieľom nášho výskumu je na základe jednotlivých výstupov zo skenerov navrhnúť optimálne pravidlá digitalizovania starých slovacikálnych dokumentov pre vytvorenie čo najkvalitnejšieho a použiteľného digitálneho obsahu v rámci historických knižníc.

Pre prehľadnosť a využiteľnosť daných poznatkov bude vytvorený katalóg, ktorý bude súborom všetkých typov písiem, ktoré sa používali v našom geografickom priestore viac ako štyri storočia. Predpokladáme, že niektoré sady písiem nájdeme u viacerých tlačiarov, pretože jednotlivé sady častokrát postupne vlastnili viacerí tlačiari. Súbor typov písma – katalóg typov písma bude obsahovať všetky typy písiem, s ktorými sa počas výskumu stretneme a popis optimálneho nastavenia skenerov (ručných a automatických digitalizačných robotov) pri tvorbe digitálneho obsahu tlačovín využívajúcich dané typy písiem.

Postup riešenia

Vychádzame:

  • zo základnej literatúry, ktorá sa venuje vývoju písma a poskytne nám priestor na identifikáciu možných typov písma, ktoré sa vyskytujú v historických slovacikálnych dokumentoch:
    • Dejiny a vývoj nášho písma (Húščava, A., 1951),
    • Dejiny písma, knihy a kníhtlače (Mišianik, J., 1956),
    • Dejiny písma a knihy (Špetko, J., 1963),
    • Knižná kultúra a písmo (Špetko, J., 1969).
  • zo zoznamu tlačiarov a tlačiarní na Slovensku od 16. do 20. storočia (viď. Tab. 1), na základe analýzy historických knižničných dokumentov pripravených Mgr. Evou Augustínovou, PhD. [2], ktorý bude základom pre výber vzoriek tlačí použitých pri našom výskume.

Výskumná vzorka

Na základe zoznamu tlačiarov vyhľadávame v retrospektívnych bibliografiách[1] dostupné dokumenty a následne z nich pripravujeme digitálne vzorky. Pri príprave digitálneho obrazu dokumentu pracujeme na dvoch typoch skenerov – Treventus a klasickém ručném skeneru Bookeye. Ako výskumnú vzorku sme si určili minimálne tri tlače vyprodukované u jedného tlačiara, a to zo začiatku, stredu a konca jeho pôsobenia. Prioritným záujmom bude jazyk dokumentu, zameriame sa najmä na tlače v slovenskom jazyku (podklad pre národný korpus slovenského jazyka), takisto ako vzorku však použijeme aj tlače v iných jazykoch, tieto vzorky však zúžime na jeden analyzovaný exemplár z každého jazyka.

Každý z vytypovaných dokumentov skenujeme v troch rôznych nastaveniach DPI. Skúmame rozdiely v kvalite digitálneho obrazu a jeho prezentácii v digitálnom priestore pri nastaveniach 150, 300 a 600 DPI na oboch skeneroch.

Vytvorené skeny budú následne prechádzať systémom OCR (Optical character recognition), ktorého výstupy nám poslúžia ako výsledné objekty skúmania.

Optical character recognition je metóda, ktorá nám umožňuje preklopenie obrazu tlačených znakov do textovej formy, ktorá sa dá následne editovať. Pre potreby nášho výskumu použijeme OCR software ABBYY FineReader OCR. Daný software nám umožní z obrazu zoskenovaných strán historických dokumentov vytvoriť textovú formu dokumentu. Tento krok je potrebný pre ďalšie optimálne využívanie digitálneho obsahu. Zoskenovaná strana dokumentu sa tak bude správať ako klasický textový dokument. Pre optimálne rozpoznanie obrazu do textu je potrebné využitie lingvistických prvkov pre správne preloženie slov a viet. Technika generovania textu zo zoskenovaného obrázku knihy dokáže pracovať len s kvalitným obrazom, preto budeme v rámci nášho výskumu vytvárať viaceré skeny jedného dokumentu v rôznych DPI rozlíšeniach a následne výstupy OCR porovnávať.

Mesto

Počet tlačiarní, tlačiarov

Mesto

Počet tlačiarní, tlačiarov

Banská Bystrica

20

Prešov

11

Banská Štiavnica

17

Púchov

5

Bardejov

13

Revúca

4

Bratislava

88

Rimavská Sobota

8

Bytča

2

Rožňava

6

Čadca

2

Ružomberok

3

Dolný Kubín

4

Senica

3

Holíč

3

Sereď

2

Jasov

2

Skalica

10

Kežmarok

8

Spišské Podhradie

4

Komárno

26

Šamorín, Mliečno

3

Košice

41

Topoľčany

3

Kremnica

2

Trenčín

8

Levice

4

Trnava

19

Levoča

21

Zlaté Moravce

6

Liptovský Mikuláš

4

Zvolen

7

Lučenec

8

Žilina

8

Malacky

4

Komjatice, Košice, Plavecké Podhradie, Rohožník, Šintava

6

Nitra

13

Tabuľka 1 Počet tlačiarov a tlačiarní na Slovensku podľa miest.

Výskumný formulár

Výsledky výskumov každej výskumnej vzorky budú zapisované do formulára. Každá výskumná vzorka bude mať pridelený svoj formulár, ktorý bude obsahovať meno tlačiara a rok vydania. Tieto údaje sú potrebné pre následné digitalizovanie ďalších historických dokumentov, kde na základe uvedených údajov budeme vedieť presne určiť ako majú byť prístroje nastavené pre optimalizáciu tvorby digitálneho obsahu ďalších kníh.

Ďalšími údajmi vo formulári sú jazyk dokumentu, typ písma a rozmer dokumentu. Tie údaje nám poskytnú doplňujúce informácie o dokumente. Najpodstatnejším z daných údajov je jazyk dokumentu, keďže sa zameriavame hlavne na dokumenty písané v slovenskom jazyku.

Nasledujúce údaje budú zaznamenávané samostatne pre Automat Treventus a samostatne pre manuálny ručný skener Bookeye. Ide o nasledujúce údaje: čas skenovania, hodnoty DPI a údaje z OCR.

Vzhľadom k tomu, že nebudeme vykonávať komplexné skeny celých dokumentov, ale len niekoľkých strán, budeme uvádzať čas skenovania jednej, maximálne dvoch strán dokumentu. Z daného údaju sa tak dá odvodiť približný čas skenovania celého dokumentu. Tento čas je samozrejme orientačný, pretože počas skenovania môžu nastať rôzne komplikácie, ktoré tento čas predĺžia.

Kvalitu skenovania budeme skúmať pri hodnotách 150, 300 a 600 DPI. Pri jednotlivých hodnotách budeme skúmať rozdiely v kvalite vytvoreného skenu a jeho čitateľnosti. Predpokladáme, že všetky historické dokumenty bude potrebné skenovať s hodnotami 600 DPI na optimalizáciu následnej práce s dokumentom.

Ako posledné záznamy do formulára budú vkladané informácie z OCR. Budeme podrobne zaznamenávať efektívnosť OCR bez akýchkoľvek nastavení. Zameriame sa na nerozpoznané písmená, slová a vety pri jednotlivých typoch písiem, údaje budeme uvádzať v percentách. Následne zaznamenáme čas trvania nastavenia OCR pre zefektívnenie procesu a vytvorenie kvalitnejšieho digitálneho obsahu. Tento čas budeme uvádzať v minútach. Posledným údajom pri oboch typoch skenerov bude efektívnosť OCR po vykonaných nastaveniach. Aj tento údaj bude uvádzaný v percentách a následne sa zameriame na rozdielne percentuálne údaje. Naším cieľom je, aby po nastaveniach bolo percento nerozpoznaného textu oveľa nižšie.

Štatistické vyhodnotenia jednotlivých výstupov a ich analýza, optimálne nastavenie budú základom pre vytvorenie vzorkovníka typov písiem a databázy s potrebnými údajmi pre zefektívnenie digitalizácie historických a nielen slovacikálnych dokumentov.

Digital model library

Dates

Notes

Printer

Year of publication

Language

Type of font

Document Size (WxH)

 Automat Treventus

Scan time

150 dpi

300 dpi

600 dpi

OCR - Efficiency OCR without settings (% ABBY FR)

OCR – Efficiency OCR setting time (min)

OCR - Efficiency OCR after settings (% ABBY FR)

Manual handheld scanner

Scan time

150 dpi

300 dpi

600 dpi

OCR - Efficiency OCR without settings (% ABBY FR)

OCR – Efficiency OCR setting time (min)

OCR - Efficiency OCR after settings (% ABBY FR)

Tabuľka 2 Vzor záznamového formulára pre dokumenty.

Záver

Pri digitalizácií historických dokumentov treba prihliadať na typ písma a jazyk dokumentu. Výsledkom nášho výskumu bude modelový vzorkovník písma používaného v slovacikálnych historických tlačených dokumentoch, ktorý bude slúžiť ako podklad pre vytvorenie programu na kvalitné preklopenie obrazu tlačených znakov do textovej formy. Stane sa tak podkladom pre efektívne digitalizovanie písomného dedičstva Slovenska.

Použitá literatúra
Poznámky:
  1. Viz retrospektívnej bibliografie:
    • RIZNER, Ľ.V. Bibliografia písomníctva slovenského na spôsob slovníka od najstarších čias do konca roku 1900.
    • Turčiansky Sv. Martin : MS, 1929 – 1934. - MIŠIANIK, J. Bibliografia písomníctva slovenského na spôsob slovníka od najstarších čias do konca roku XIX. stor. (Doplnky k Riznerovej bibliografii).Bratislava : SAVU 1946. 300 s. -
    • ORMIS, J.V. Doplnky a opravy k Riznerovej bibliografii písomníctva slovenského.Martin : MS, 1935-1952. - ČAPLOVIČ, J. Bibliografia tlačí vydaných na Slovensku do roku 1700. 1. diel. Martin : MS, 1972. 555 s. -
    • ČAPLOVIČ, J. Bibliografia tlačí vydaných na Slovensku do roku 1700. 2. diel. Martin : MS, 1984. 556-1410 s. -
    • FEDOR, M. Biliografia slovenských kníh 1901-1918. Martin : MS, 1964. 727 s. - KLIMEKOVÁ, A. a kol. Bibliografia územne slovacikálnych tlačí 18. storočia. 6 zväzkov Martin : Slovenská národná knižnica, 2008. – Databáza územne slovacikálnych tlačí 19. storočia. Lokálna databáza v Slovenskej národnej knižnici.
Poznámka: Tento článok vznikol s podporou projektu „Pamäť Slovenska- Národné centrum excelentnosti výskumu, ochrany a sprístupňovania kultúrneho a vedeckého dedičstva“ (ITMS:26220120061) v rámci OP Výskum a vývoj spolufinancovaný zo zdrojov Európskeho fondu regionálneho rozvoja.
Loga partnerů projektu
Hodnocení: 
Průměr: 5 (1 hlasování)
PLEVKOVÁ, Lenka. Vplyv tlače a písma na výsledok procesu digitalizácie. Ikaros [online]. 2014, ročník 18, číslo 8 [cit. 2019-12-12]. urn:nbn:cz:ik-14266. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/14266

automaticky generované reklamy