COLLATE - vytváření nového informačního zdroje v oblasti kinematografie
Mezinárodní výzkumný projekt COLLATE (Collaboratory for annotation, indexing and retrieval of digitized historical archive material; IST 1999 - 20882) je jedním z projektů programu IST [5] (Inteligence, Service, Technology), realizovaných pod patronací EU. Cílem projektu COLLATE [6] je vytvoření virtuálního centra pro práci s multimediální sbírkou digitalizovaných archivních dokumentů k dějinám filmu a aplikování metody mezioborové spolupráce ("collaboratory") ve sféře společenských věd.
Koordinátorem projektu je FhG-IPSI [7] (Fraunhofer Gesellschaft - Institut Integrierte Publikations-und Informationssysteme, Darmstadt). Archivní materiály poskytují tři významné evropské filmové archivy - DIF [8] (Deutsches Filminstitut, Frankfurt am Main), FAA [9] (Filmarchiv Austria, Wien) a NFA [10] (Národní filmový archiv, Praha). Na otázkách spojených se softwarovým řešením projektu spolupracují FhG-IPSI, Universita degli Studi di Bari [11] (LACAM Laboratory) a [12]Sword Information and Communication Technology. Funkčnost vytvářeného systému zkoumá Riso National Laboratory [13], Roskilde.
Základ vznikající digtitální knihovny tvoří cenzurní dokumenty [1], k nimž přibývají další materiály rozptýlené v archivech [2] a knihovnách - články a recenze z dobového filmového i denního tisku, fotografie a reklamní materiály. Všechny tři filmové archivy (DIF, FAA, NFA) poskytují množství materiálů pro vytváření multimediální sbírky dokumentů. Tato sbírka digitalizovaných dokumentů je rozdělena do dvou kategorií: core collection a overall collection. Core collection tvoří celkem 102 filmů celosvětové provenience, natočených v letech 1918-1939. Ke každému titulu z core collection se shromažďují nejen cenzurní dokumenty, ale i ostatní dostupné materiály - články z denního tisku a z dobových filmových periodik, korespondence, fotografie, plakáty a filmové ukázky. Overall collection je koncipovaná jako sbírka velkého množství cenzurních dokumentů z období 1929-1933.
Pro práci s digitalizovanými dokumenty byl vytvořen speciální Prototyp databáze (Oracle). Proces zpracování (indexace) digitalizovaných dokumentů probíhá v několika rovinách. Tou první je evidence každé digitalizované stránky v databázi Digiprot (MS Access), která slouží k zaznamenání technických parametrů originálu. Další krok představuje přiřazení dokumentu k patřičnému filmovému titulu, připojení filmografických informací a odkazy na další dokumenty související s daným filmovým titulem.
Druhou indexační rovinou je katalogizace jednotlivých typů dokumentů. Nejprve byla vytvořena typologie dokumentů, následně katalogizační pravidla, která jsou vyvíjena na základě požadavků badatelských týmů s využitím obvyklých katalogizačních pravidel, využívaných ve filmových archivech a v souladu s Dublin Core. Analýza obsahové struktury dokumentů zároveň vedla k vytvoření systematiky klíčových slov, která byla základní podmínkou pro vytvoření funkčního obsahově indexačního systému.
Indexování obsahu dokumentů prostřednictvím systematiky pevných klíčových slov je další indexační rovinou. Obsahová indexace se provádí na úrovni celého dokumentu nebo stránky, ke kterým se přiřazují významově nejvýstižnější klíčová slova. Prostřednictvím selektivní funkce lze v dokumentech graficky označovat i malé pasáže. Indexování pomocí klíčových slov má dvojí funkci: umožní na základní úrovni porozumět obsahu dokumentu a zároveň slouží k účinnému vyhledávání dokumentů.
K celým dokumentům, jednotlivým stranám nebo ke graficky označeným pasážím se mohou rovněž vztahovat i delší komentáře - anotace. Většinou mají explikativní charakter a vztahují se k nejdůležitějším či nejzajímavějším obsahovým pasážím - k odůvodněním cenzurních omezení (vyloučených scén či zákazu celých filmů). Zároveň mohou i obohacovat vyznačené pasáže dodáváním dalších, v dokumentech neobsažených informací, nebo vytvářet odkazy k titulům sekundární literatury. Anotace mohou mít i formu komentáře komentářů ("comments on comments"). Představují specifickou podobu miniaturní rozpravy dvou a více indexátorů o konkrétním zkoumaném objektu.
Kromě tohoto manuálního způsobu zpracování dokumentů obsahuje systém i automatizované funkční prvky. Analýza struktury digitalizovaného textového dokumentu umožňuje vytvořit modul pro automatickou klasifikaci textových dokumentů. K aktualizované verzi prototypu (Prototyp 2) bude připojen i modul pro indexování fotografií a filmových fragmentů.
Virtuální systém COLLATE nabízí díky popsanému zpracování dokumentů velké množství obsahových údajů. Všechny údaje jsou ukládány v jazyce XML, který umožňuje rozsáhlé vyhledávání a poskytování obrovského množství informací. Po skončení katalogizování a indexování všech dostupných dokumentů vznikne rozsáhlá síť dokumentů, v níž bude možné vyhledávat podle formálních i obsahových hledisek. Tento výsledek projektu COLLATE bude zpřístupněn pro uživatele na webových stránkách.
1. Významnou roli v "procesu šíření filmů" sehrála cenzura neboť filmová kultura byla od prvních okamžiků neoddělitelně spojena s kulturní politikou jednotlivých států. Cenzurní proces jako významnou část geneze filmu ilustrují cenzurní dokumenty - jedinečné informační zdroje nejen pro filmové historiky. Informace z cenzurních dokumentů jsou využívány například při restaurování poškozených filmových kopií. V nemálo případech jsou i tím jediným, co po filmu zůstalo.
2. Cenzurní dokumenty se ve fondech a sbírkách filmových archivů nenacházejí příliš často, a proto byla navázána spolupráce s dalšími archivy. DIF využil kromě vlastních sbírek mj. i fondy z Bundesarchivu - Filmarchivu v Koblenzi, FAA prohloubil již dříve navázanou spolupráci s Dolnorakouským zemským archivem (Niederösterreichisches Landesarchiv, St. Pölten) a se Státním archivem (Österreichisches Staatsarchiv, Wien). Národní filmový archiv pracoval s cenzurními spisy z fondu "Ministerstvo vnitra - Censurní sbor kinematografický", uloženého ve Státním ústředním archivu v Praze.