Extrakce informací z úplných textů (Jan Žbirka)
Jan Žbirka hovořil o systému zpracování plných textů, který dle jeho slov jde zcela jinou cestou než technologie běžně užívané. Tato technologie funguje na principu procházení textu a nahrazování určitých slov a později pojmů tzv. "nálepkami". Potom se odkazuje na tyto nálepky a získávají se strukturovaná fakta. Zatím má tato technologie nevýhodu v tom smyslu, že při extrakci textu vlastně původní text mizí a je nahrazen strukturovanými fakty. Architekturu systému tvoří segmentace a preprocesor (příprava textu pro zpracování, např. odstranění HTML značek), filtr (odfiltrování nepodstatných částí textů), parser a kombinace fragmentů (samotné lingvistické zpracování), sémantická interpretace (odstranění víceznačnosti) a generování šablon (definuje si uživatel). J. Žbirka ukázal příklad extrakce anglicky psaného textu; asi 40% textu bylo zpracováno, zejm. místa, osoby a instituce, čísla, funkce. Vyšší vrstvy zpracovaly relace mezi osobami, funkcemi, firmami apod., může tedy vzniknout relace osoba-firma-stát nebo stát-obchod-zboží. Přednášející prezentoval problémy, které při automatickém zpracování textů mohou vzniknout; obecně problémy jsou to spojené s principy porozumění textu a jeho souvislostí (dvojsmyslů, odkazů na již známé skutečnosti apod.). Angličtina je tedy například vhodnější pro takové zpracování než čeština, lingvistickou interpretaci je však ze zkušenosti přednášejícího nutné korigovat vždy. Závěrem lze říci, že je potřeba tyto metody používat skutečně pouze pro účely extrakce, nikoli shlukování, kde jsou výkonnější systémy plnotextového vyhledávání.
(text přednášky) [4]
(Jed)