Kategorizace a klasifikace firemních dokumentů (Pavel Kocourek)
Pavel Kocourek ve svém příspěvku nastínil způsob, jak funguje vyhledávací a kategorizační software Convera (Convera RetrievalWare a Taxonomy Worbench) [4]. Po úvodu, ve kterém připomenul rozdíly mezi kategorizací a klasifikací, zejména z hlediska jejich provedení, se věnoval rozdílu mezi kategorizací manuální a automatickou. Připomenul výhody i nevýhody obou řešení, a to zejména problematiku subjektivity, nutnosti znalosti oboru, zachování konzistence na straně manuálního zpracování a závislosti výsledků na kvalitě a kvantitě vkládaných dokumentů u zpracování automatického. Jako zásadní se pak ukázala problematika automaticky generované taxonomie, která výsledně není vyvážená co do hloubky a šířky a jen těžko dochází k implementaci obecné či oborové taxonomie jako celku.
Prezentovaný software přitom ve svém rozhranní kombinuje oba přístupy, přičemž základem zůstává indexace a přiřazování, které je rozšířeno o dynamickou klasifikaci na základě uživatelských pohledů. Do procesu vyhledávání je také zapojena sémantická síť, pomocí které je lépe vymezen rámec, na který se dotaz vztahuje, a již zmíněná taxonomie - ale ta až v okamžiku, kdy se vyhledává, např. v podobě časové osy nebo geografického vymezení.
Součástí příspěvku bylo i praktické předvedení systému, které ukázalo, jak lze jednoduše, rychle a snadno přistupovat ke konkrétním dokumentům, a to z mnoha "směrů", pouze postupnou konkretizací dotazu uživatele pomocí procházení obsahu a přidávání dalších taxonomií. Tato metoda se tak přímo nabízí jako řešení pro intranety a portály a pro správu kolekcí elektronických dokumentů.
(text přednášky [5])
(JaS)