Memoriae mundi series bohemica aneb Dobrá zpráva - koncepce zůstává
0 comments
Autoři:
Vydání:
Rubrika:
(pro chvátající: Stárnutí
formátů, programů a kompatibilita teoreticky ,
totéž lidsky ,
PC nebo MAC ,
Pevné vlastnosti,
Proměnné vlastnosti,
Tvorba SGML,
DOBM Praktické
výsledky, Clavis,
Závěr)
Byl jsem upomenut, že jsem neposlal příspěvek do
sborníku k pravidelnému setkáni pracovníků s historickými fondy pořádanému
každoročně v SVK Olomouc. Zatrnulo mi, zda si vzpomenu, co jsem právě v
Olomouci řekl nového. Pak jsem si uvědomil, že základ a principy toho,
co již čtvrtý rok prosazujeme, se nemění a že to je vlastně ta nejlepší
zpráva. Pokusím se o abstraktnější analýzu a obecnější vysvětlení a zdůvodnění
dosažené stability, která se obrazila i v tom , vypracovaná metodika byla
přijata jako standard programu ‚Paměť světa` UNESCO.
V době pochybností jsme začali tušit rozpor
mezi neustálým vývojem novorozeného počítačového prostředí a evidentní
potřebou nadčasovosti vznikajících digitálních produktů. Úvahy byly samozřejmě
spíše tápáním za tušeným cílem, ale zároveň i odmítáním komerčního vnucování
typu ‚naše baterie vydrží až 7x déle` nebo ‚vybělená špína je nejčistší`.
Věděli jsme, že konečné řešení nelze očekávat ani od geniálního vynálezu
ohlášeného na příští rok a také ne od firem příliš halasně prosazujících
svou jedinečnost, zdůrazňujících svou neomylnost a hlavně přicházejících
každoročně s novým tvrzením, že teď už to bude konečně na věčné časy ono.
Stárnutí formátů, programů a
kompatibilita
Pokusím se teoreticky naznačit, na čem závisí morální
životnost produktu v počítačovém prostředí a co z toho plyne pro nás. Vás,
kteří nemáte rádi matematickou logiku, prosím, přeskočte následující řádky
na ‚Překlad do lidštiny`. Vy ostatní mi zase promiňte extrémní zjednodušení
vedoucí až k elementárnosti. Jedině tak lze popsat jevy jinak těžko pojmenovatelné
a rozpoznatelné v nekonečně složitější realitě.
Definice modelu:
- Počítačové prostředí má stálé vlastnosti (SV) a proměnné
vlastnosti (PVn) platné v n-tém období.
- PVn jsou definovány pomocí SV, PVn-1(předchozího
období) a aktuálních nových vlastností (NVn) (NV často představuje i ztrátu
nebo úmyslné odstranění starších nežádoucích vlastností)
- NVn v každém dalším období způsobuje, že PVn-k
je v rozporu s PVn , ( ‚k` tedy vyjadřuje omezenou zpětnou kompatibilitu).
- Dokument (D) je množina informací vytvořená výhradně
pomocí SV.
- Dokument (Dn) je množina informací vytvořená pomocí
SV a PVn
- Zobrazovač (Zn) je prostředek, který interpretuje
pomocí SV a PVn dokument D nebo Dn.
Věty vyplývající:
1. Dn lze interpretovat pouze pomocí Z n, Z n+1 … Z
n+k-1.
2. D lze interpretovat pomocí všech Z bez omezení
Překlad do lidštiny
Z první věty vyplývá, že pokud využiji všech proměnlivých
vlastností nějakého formátu a můj dokument se stane závislý na proměnných
vlastnostech počítačového prostředí, jsem vazalem subjektů nabízejících
prostředky zpřístupnění, které se měnili, mění a měnit budou. Mnoha rozumnými
důvody mohu být nucen ke aktualizaci používaných programů. Mám-li ale data
založena na proměnných vlastnostech, mohu být nucen stagnaci na starších
programech dovolujících ještě s těmito daty pracovat, nebo budu nucen konvertovat
data tak, aby jejich vlastnosti se přizpůsobily modernímu programu.
Naopak, pracuji-li s dokumentem postaveným jen na
neměnných vlastnostech dokumentu, jsem nezávislý na vývoji programů. Mohu
sice pro dokumenty používat nové programy, ale nejsem v tomto směru nijak
nucen.
Co myslím pod slovy pevné vlastnosti nebo nebezpečné
proměnné vlastnosti a co z toho vyplývá?
(pro chvátající: Práce
s dokumenty , PC
nebo MAC , Pevné
vlastnosti , Proměnné
vlastnosti , Tvorba
SGML , DOBM,
Praktické výsledky ,
Clavis, Závěr
)
Zmínil jsem se už o novorozeném počítačovém
prostředí. Ten příměr se mi líbí. Vyjadřuje na jednu stranu dosud netušené
možnosti, lačnost jejich uchopování, rychlý vývoj. Na druhou stranu je
úspěšné narození určité definitivum, nelze jednoduše změnit DNA, principy
vidění, slyšení, počet končetin. Narození tedy v sobě obsahuje stále vlastnosti
i možnosti nekonečného vývoje.
Pevné vlastnosti
Uvažujeme-li o knihách, je základem pro úvahy samozřejmě
řeč a tedy způsob jak ji zakódovat do znaků. V případě obrazu je to složitější
- kódují se informace, které později dovolí vygenerovat podobné fyziologické
vjemy jako při pohledu na originál. Kódování písma je již stabilizováno,
okruh kódů je sice úctyhodný, ale na mezinárodní úrovni se jich používá
jen několik a lze je brát za konstanty. Z nich jsou tvořeny textové dokumenty.
Prosté textové dokumenty ale nedovolují uchovat informace o vlastnostech
a případně o významu textu nebo jeho částí. Tyto informace lze zapsat samozřejmě
přímo do textu komentářem nebo určitými konvencemi, které dovolují přímo
dle ‚komentářů` (tagů) zacházet s ostatním textem. Existuje mnoho těchto
konvencí. V podstatě všechny soubory určené pro textové editory patří do
této kategorie. Co si ale vybrat, co lze považovat za konstantní, čemu
věřit do budoucnosti?
Nejsme samozřejmě sami, kdo si uvědomuje akutní potřebu
jistot, o které se lze opřít. Naše cesta tedy nebyla rozhodně ve vytváření
nových principů, ale v pečlivém hledání a rozpoznání možností i nebezpečí.
Dosplěli jsme přes prověřování HTML až k dokumentům definovaným pomocí
SGML (nebudu obtěžovat detaily … je to norma vzniklá prvotně s cílem definovat
zcela obecně ‚co je co` v digitálním dokumentu. Je využita k definice HTML
i XML , je uznávána jako konstanta - základ bez jakýchkoli komerčních vazeb).
Pevné vlastnosti ve smyslu našich potřeb dokument definovaný pomocí SGML
rozhodně má.
Anarchie nebo kázeň v rámci
SGML
Obecnost a volnost dokumentů definovaných v SGML je
bezbřehá. Velká svoboda ale snadno vede k velké anarchii. Hned od počátku
jsme se bránili dětskému okouzlení z možností SGML dokumentů. Stanovili
jsme si omezení, která nejsou ‚novými vlastnostmi` ve smyslu výše uvedené
definice, ale naopak jsou ukázněným vzdáním se určité míry svobody ve prospěch
prohloubení obecnosti a užitečnosti.
Prvním krokem bylo uznání, že je užitečné akceptovat
množinu vlastností představovaných HTML. Tím pro většinu využívání těchto
dokumentů odpadá starost se zobrazovačem (práce s dokumenty).
Druhým významným ústupkem bylo vědomé opuštění svobody
v tvorbě dokumentu. Pro SGML dokumenty o rukopisech a knihách jsme zavedli
na základě doporučení historiků konvence nazvané DOBM (digitization old
book materials), které doporučují, jak mají být v SGML dokumentu rozpoznávány
opakující se významné informace (signatura, majitel, místo uložení ...
rozpis obsahu.).
DOBM
K čemu toto DOBM doporučení je? SGML dokument poskytuje
naprostou svobodu ve struktuře. Vzdáme-li se určité míry svobody tím, že
akceptujeme HTML konvence, je možno tyto dokumenty prohlížet současnými
i budoucími WWW prohlížeči. Podobně, pokud se shodneme, že všechny rukopisy
mají společnou množinu informací, je vhodné přijmout jednotící pravidla,
jak rozpoznat v textu ‚co je co` (o tom je SGML). Tato dohoda nijak neomezuje
možnost použít navíc i jiná označení. Omezení plynoucí z této dohody jsou
minimální, výhody nedozírné. Takovéto SGML dokumenty pak představují společně
sdílitelný rezervoár informací, který je nadčasový, snadno zpracovatelný
aktuálními prostředky bez toho, že by vznikla závislost na těchto prostředcích.
Tvorba SGML dokumentů
Kázeň při tvorbě SGML dokumentů, kterou představuje
např. DOBM dovoluje zjednodušit a zautomatizovat tvorbu SGML dokumentů.
Podívá-li se humanisticky vzdělaný člověk na text napsaný pomocí SGML s
představou, že jej má vytvořit, asi na něj přijde deprese (viz Clavis).
Pokud se historik chce soustředit na odbornou stránku, je vhodné použít
prostředky pro jejich automatizovanou tvorbu. Tyto prostředky již více
než tři roky používáme v našem projektu. Jeden program vygeneruje dle zadaných
vlastností rukopisu základní textový dokument, který představuje vlastně
prázdný formulář. Odborník v libovolném editoru vyplní tento formulář potřebnými
informacemi. Další program pak tento formulář přemění v sestavu SGML dokumentů.
Pro zajímavost se můžete podívat, co tyto textové dokumenty obsahují a
jak jsou tvořeny. Uvidíte, že jsou čitelné a logické, ale vyjadřovat se
v tomto stylu není příliš pohodlné.
Práce s dokumenty
Svou veřejně přístupnou, standardizovanou a všeobecně
mezinárodně akceptovanou formou dovoluje takto vytvořený SGML dokument
současně trvalý přístup k informacím i využívání nejmodernějších prostředků
zpracování dat bez škody z toho, že tyto prostředky jistě zestárnou a budou
nahrazeny novými. Naopak, tatáž data lze zpracovávat stále novými prostředky,
příjemněji. Když jsme zavedli tuto metodu, bylo možno naše dokumenty zobrazit
každým WWW prohlížečem a naším prohlížečem ManuFret, který z dokumentu
udělal elektronickou knihu. V současnosti jsme hrdi na plugIn do prohlížeče,
který dovoluje jednoduchou a přitom efektivní práci s obrazem doposud vyhrazenou
speciálním programům typu Photoshop. Připravujeme nové prostředky, protože
prostředky obecně dostupné dosud nemohou zcela pokrýt požadavky badatelů.
V budoucnu tento vývoj zcela jistě může soustředit opravdu jen na splnění
mimořádných požadavků, pokud bude vůbec nutný.
Stále se objevují lepší browsery, lepší textové
editory. Zkuste si pro zajímavost otevřít naše dokumenty v programech čtyři
roky starých a pak například ve Wordu 97 - bude asi překvapeni. Dalo by
se to interpretovat tak, že Microsoft pomalu dorůstá naše dokumenty, ale
pravda je prostší - zdá se, že již před lety jsme zvolili správnou, dostatečně
obecnou formu a komerční produkty svým vývojem akceptují a potvrzují tuto
formu jako jednotící trend. Přesto tento jev vnímám jako sice příjemné,
ale vedlejší potvrzení správnosti této koncepce.
PC nebo MAC
Stejně jako je náš dokument nezávislý na konkrétním
WWW prohlížeči nebo editoru, je nezávislý i na hardwarové platformě. Tentýž
dokument je stejně použitelný na PC nebo na MAC.
Proměnné vlastnosti
Za proměnné vlastnosti dokumentu je nutno pokládat všechny
vlastnosti závislé na jediném výrobci programů nebo techniky. Tyto vlastnosti
mohou být zajímavé i výhodné, bývají v okamžiku uvedení na trh předkládány
jako revoluční a jedinečné, což i bývá v různé míře pravda. Z dlouhodobého
hlediska jsou vždy z počátku rizikem. Příkladem jsou nepřeberné verze textových
formátů pro různé editory, které zvláště na počátku vývoje spontánně vznikaly
a zanikaly, a které při svém uvedení vždy znamenaly kvalitativní přínos.
(příklad: editor T602 a jeho formát - obdivuji s úctou, ale je to ryze
český formát svázaný s konkrétním českým produktem…). Je-li formát ‚majetkem`
jediné firmy, má tato firma samozřejmě právo na změnu a o tom jestli je
vhodné ji provést, rozhoduje především ekonomická efektivita takového kroku.
Mnohdy je tento přístup správný a pro uživatele výhodný, protože rozšíření
definice formátu umožňuje práci s dalšími verzemi programu. Typickým příkladem
jsou firemní formáty programů PHOTOSHOP, COREL, stejnou snahu vidíme i
u formátu DOC. Formáty připouštějící takovýto vývoj jsou však zásadně nevhodné
pro dlouhodobé uchování dat. Znamenaly by totiž i dlouhodobé uchování verzí
programů a časem pravděpodobně i hardware.
Zavádějící může být i naděje, že kvantita přeroste
v kvalitu. (DOC soubor dokáže stále ještě neuvěřitelné věci, někdy mám
pocit, že je poťouchlý až škodolibý, o zpětné kompatibilitě nemluvě). Nic
neznamená i zdánlivá zcela jednoznačná dominance jednoho výrobce SW ( některým
lidem pravděpodobně nejsou příjemná slova jako UNIX, LINUX ...). Struktura
dokumentů SGML je z tohoto hlediska zcela ‚čistá` a tedy nadčasová. Existuje
veřejně přístupná, na nikom nezávislá definice. V oblasti zvuku a obrazu
je situace pochopitelně mnohem složitější. Bezproblémovou jistotou uznanou
i v archivnictví je nekomprimovaný formát TIFF, který ale pro praktické
využívání není efektivní. Z uživatelského hlediska je vhodné používat komprimované
formáty. Při rozhodování co použít je ale nutno pečlivě zohledňovat rozsah
rozšíření a to nejen jeho okamžitou amplitudu, ale celou dynamiku a hloubku
zastoupeni formátu v technickém světě (viz Trocha technických úvah). Na
kvalitních standardech pro uchování obrazu se však ve světě intenzivně
pracuje.
Praktické výsledky
Program digitálního zpřístupnění vzácných dokumentů
Memoriae Mundi Series Bohemica, vede Národní knihovna ČR společně a firmou
Albertina icome Praha s.r.o. Vzniklý systém produkcí dostatečného množství
použitelných dat přivodil vznik nového informačního prostředí. Je řešena
i problematika životnosti využívaných záznamových médií (hlavně CD a CD-R)
z hlediska dlouhodobého uchování digitálních dat. Teoretické základy se
aplikují v rutinním digitalizování významných rukopisů v Národní knihovně
(přístupno více než 400 významných rukopisů) i pro Národní muzeum, SVK
Olomouc, STK ale i pro partnery ve státních archivech, muzeích.
Na produkci digitálních dat musí vždy navazovat prostředky
k jejich využívání. Zpřístupňování základních informací na Internetu může
způsobit zvýšený zájem o originál, proto musí být nejprve akceptovatelně
(pro poskytovatele i pro zájemce) vyřešeno zpřístupnění nebo poskytování
kopií.
Zpřístupňování v badatelně přináší při malém počtu
digitalizovaných dokumentů relativně vysoké náklady a obvykle malé využití.
Proto je při jednotlivých digitálních dokumentech tento přístup účelný
jen tehdy, je-li přínosem zpřístupnění informací z mimořádného, často vyhledávaného
dokumentu a jeho ochrana.
Teprve určité významné množství digitálních
dokumentů, zvláště v ucelených tématických celcích, přináší vznik nového
informačního prostředí a vede k rozpoznávání významu a nové role digitálního
dokumentu a jeho efektivnímu využívání. V NKČL lze pozorovat významný nárůst
využívání těchto digitalizovaných dokumentů.
Heslovitě:
Technické vybavení a jeho využití
Špičkové výsledky a efektivita - spojení vysoké odbornosti
obsluhy a technického zázemí, intenzivní využívání (více směn), sdílení
technických prostředků pro více projektů, možnosti pro nové partnery.
Systém řízení výroby je nezbytný - plánování výroby,
optimalizace toků dat, paralelní příprava doprovodných dat, sledování a
minimalizace rozpracovanosti…
Návaznosti na Internet automatizované zpřístupňování
základních (volitelných) informací o dosažitelných dokumentech.
Autorské a vlastnické vztahy k vznikajícím dokumentům
- maximální respektování partnerů, jasné smluvní vztahy.
Závěr
Vzniklý systém produkcí dostatečného množství použitelných
dat přivodil vznik nového informačního prostředí. Metodika tvorby digitálních
dokumentů byla přijata v r. 1999 jako mezinárodní doporučení UNESCO pro
projekt ‚Paměť světa`. Projekt svým rozsahem a koncepcí ukazuje širokou
použitelnost výsledků a jejich nadčasovost. Jsou vytvořeny a používány
účinné prostředky pro jednoduché generování SGML dokumentů, použitelné
principy jsou veřejně přístupné. Jsou veřejně přístupné zásady dovolující
nejrůznějším subjektům tvořit samostatně SGML dokumenty vzájemně velmi
efektivně sdílitelné. Projekt řeší i zpřístupňování na Internetu a bezpečnou
archivaci vznikajících dat. Roste počet spolupracujících partnerů, využívání
výsledků, mezinárodní povědomí. Jsou poskytovány služby za definovaných
podmínek a odpovědností, s jasnými vztahy k autorským a vlastnickým právům
partnerů. Kontakty: Adolf Knoll
, Stanislav Psohlavec
Poznámky navíc:
Trocha technických úvah
Proč používáme JPG formát pro uchování obrazu Použití
obrazového formátu JPG pro uchování obrazu zdůvodňujeme takto (heslovitě):
Je hojně používaný na Internetu, rozšiřuje se v komerční sféře (digitální
foto), všechny významné produkty jej podporují a dovolují konverzi na jiné
formáty, bezplatné používání formátu. Tento formát, zdá se, nikomu nevadí.
Co ovlivňuje vývoj formátů?
Formáty vázané na konkrétní firmu a technologii mají
obvykle krátkou morální životnost. Proto asi už nebude světovým standardem
PhotoCD, ani systém AT ve fotografii, obojí již převálcovává amatérské
digitální foto.
Další skutečností je, že velmi rozšířený produkt
nebo formát bývá nahrazen teprve něčím, co přinese něco OPRAVDU kvalitativně
nového, co OPRAVDU chybí PODSTATNÉ VĚTŠINĚ průměrných spotřebitelů nebo
co dokážou ocenit. Příklad: Video systém 2000 se neprosadil proti VHS,
ač se dosud všichni technici shodují na tom, že ještě nyní by byl lepší.
Přišel pozdě a rozdíl pro většinu uživatelů opravdu nebyl důležitý. Důležitější
bylo, co lze na kazetách VHS koupit, kolik stojí VHS videorekordér… Ze
stejných důvodů si dovolím říci, že CD je velmi stabilní medium, protože
existují rozšířené, drahé a mohutné výrobní kapacity, je stlačena výrobní
cena na minimum (nesouvisí s cenou na trhu) a významná konkurence? Minidisk…
dražší, není srovnatelná nabídka hotových titulů a co přináší OPRAVDU nového
- kvalitní digitální záznam, ale to je zajímavé jen pro profesionály. Většině,
která určuje efektivitu vývoje, stačí pro vlastní nahrávky do auta nebo
do wolkmena CC-kazeta. Proto prakticky ihned zanikla digitální kazeta od
f.Philips a R-DAT kazeta zůstala doménou profíků. DVD… uvidíme, ale i zde
jsou pochybnosti a spíš se zdá, že bude existovat hlavně pro video a hry
paralelně s CD. CD ale překoná v budoucnu určitě záznam v pevné paměti.
Výhody jsou evidentní - žádná mechanika a výhody všech digitálních nosičů.
Rozhodující bude CENA. Po poklesu ceny paměťových čipů s kapacitou řádově
stovek MB lze očekávat boj s CD o ovládnutí světového trhu.
Nutno si uvědomit jak zásadně ovlivňuje vývoj techniky
politika (kosmický a vojenský výzkum) a komerční sféra (téměř vše ostatní),
na rozdíl od přání techniků a nebo například knihovníků. I pro tuto rozhodující
oblast je však zřetelná nezbytnost standardizovaných formátů záznamu obrazu,
proto v této oblasti probíhá intenzivní výzkum, jehož výsledky budou i
pro naši oblast velmi užitečné.
Clavis
Absolvoval jsem 22.-23.11. velmi zajímavý seminář organizovaný
PhDr. Tesařem v Olomouci. Mimo mnohých hlavních témat mne zaujaly dva příspěvky
zástupců projektu CLAVIS. Nejsem historik, nepochybuji tedy o odborné kvalitě
příspěvků, ale byl jsem upřímně udiven (z technického hlediska, kterému
rozumím), že v rámci jediného setkání zazněly dva tak kontroverzní příspěvky.
Cítím povinnost v souvislosti s dříve řečeným na ně reagovat. První příspěvek
představoval na příkladu jednoho rukopisu relativně nový formát PDF od
firmy ADOBE jako optimální řešení pro publikace informací o historických
dokumentech. Nepochybuji o tom, že formát PDF je moderní a dobrý nástroj.
Jako účelová dezinformace mi však zněly deklarované
výhody, zvláště to, že Akrobat-reader je zdarma. Ano, to je pravda, ale
nezaznělo zde, že prostředky pro tvorbu těchto dokumentů se musí dosti
draho koupit, zdarma jsou pouze prostředky pro jejich čtení. Tyto dokumenty
tedy nebude sestavovat pravděpodobně přímo historik, kdo tedy? Vyberte
si - investici a v celku nezajímavou práci mimo svou odbornost nebo závislost
na tom, kdo neříká vše a nabízí služby zadarmo.
Vysvětlení si přímo žádá druhý příspěvek, ve
kterém byl propagován SGML a dokonce byly rozdány příklady struktury SGML
dokumentů. Potěšilo mne zprvu, že CLAVIS opustil svůj dosud přezíravý postoj
k principům tvorby digitálních dokumentů na základě SGML, které už léta
používáme a propagujeme. Obsahem příspěvku však byla óda na to, že SGML
je geniální formát a dovoluje vše (souhlasím - viz ‚Anarchie nebo kázeň
v rámci SGML`,` DOBM`). Odvážím se tvrdit, že přednesené informace byly
určeny nikoli k informování, ale spíše k ohromení laických posluchačů.
Nebyl zde přednesen žádný přesvědčivý důvod proč používat právě SGML, kromě
zřetelného okouzlení možnostmi, které SGML nabízí. Nebylo zde zmíněno nebezpečí
z nepromyšleného amatérského využívání ‚neomezených možností`. Nebo snad
nebylo dosud rozeznáno?
Několikrát opakovaná nabídka služeb zdarma
je v těchto souvislostech hodna zamyšlení. Projekty financované státem
rozhodně nejsou zadarmo, jen peníze tečou jinudy. Vzhledem k tomu, že před
cca dvěmi lety při kritice naší metodiky vůdčí osobnosti CLAVISU propagovaly
fulltext jako konečné řešení, překvapila mne radikální změna koncepce (?)
za tak krátkou dobu, navíc mířící hned dvěma směry. Tak nevím ...
Klíčová slova:
digitalizace [4]
Hodnocení: