Inteligentní nástroje pro práci s texty na Internetu
Internet v současnosti připomíná obrovský "samožerbuch", který je schopen pojmout téměř vše, co si kdo usmyslí do něho vložit a dopravit to poctivě na kterékoliv místo civilizovaného světa. A není tudíž zatím schopen se zamyslet nad tím, co a proč komunikuje.
Do kategorie vývojových nástrojů Internetu snad proto dnes spadají převážně nástroje usnadňující zpřístupňování informací a uživatelský komfort (zdokonalují se HTML editory, rozšiřuje se propojení webovského serveru s databázemi, rozvíjí se oblast specializovaných nástrojů pro vytváření praktických aplikací – internetový obchod, elektronické publikování apod.) (2)
Chtěl bych v tomto článku poukázat na skutečnost, že současně s procesem ukládání a přenosu informací pracují kdesi mimo komerční sféru týmy profesionálů, kteří jednou z tohoto informačního monstra vytvoří inteligentní nástroj. Inteligentní v tom smyslu, že nabídne uživateli informace dílem již obsahově zpracované, to znamená vytříděné, zhuštěné a snad i ohodnocené vahou, jakou má vyhledaný text vzhledem k zadanému dotazu.
Množství produktů na klasických i digitálních nosičích roste tak prudce, že pravděpodobnost nalezení relevantní informace rok od roku klesá. Další zvyšování rychlosti přenosu, propojování stále odlehlejších končin světa i úplná digitalizace všech dokumentů může vyřešit jeden ze základních požadavků člověka, kterým je právo na informace, nemůže však vyřešit problém, jak je užitečně absorbovat, zpracovat a využít.
Závažným důsledkem exponenciálního růstu informací je fakt, že všichni uživatelé informací, ale zejména tvůrčí odborní pracovníci, musí věnovat zjišťování informací neúměrně vysoké množství času. Zmírnění důsledků informační exploze lze s vysokou pravděpodobností docílit určitou redukcí, komprimací objemu informačních zdrojů při zachování podstatných informací v nich obsažených.
Je zřejmé, že řešení uvedeného problému je možné pouze za předpokladu, že nalezneme nástroj, který by dokázal mnohonásobně rychleji než školený odborník vykonávat rutinně náročné práce spojené s analýzou a zpracováním textů.
Algoritmizace procesu porozumění textu a jeho následná automatická komprimace či interpretace naráží na problémy spojené se složitostí přirozeného jazyka. Metody redukce textu se liší dle požadavků kladených na výsledek zhuštění. Má-li výsledný text plně nahradit původní text, tak aby se k němu uživatel nemusel již vracet, mluvíme o referování. Slouží-li redukce pouze k rozhodnutí, má-li uživatel text číst či nečíst, mluvíme o extrahování či anotování. Dosavadní používané metody použité jak k referování, tak k anotování, lze rozdělit do následujících skupin:
Metody statistické jsou v principu založeny na předpokladu, že lexikální jednotky s vyšší frekvencí výskytu, jsou současně nejzávažnějšími nositeli obsahu.
Metody syntaktické jsou kritéria pro výběr obsahově nejzávažnějších úseků textu se stanoví na základě porovnání syntaktických struktur textu se slovníkem vzorových syntaktických struktur.
Metody sémantické slouží k výběru obsahově závažných prvků textu se rozhoduje na základě analýzy sémantických struktur textu. Mohou jimi být zjevné obsahově zatížené prvky (název, podnázev) nebo prvky skryté v textu a předpokládající náročnou "podpovrchovou" analýzu (morfémy, sémy ap.).
Účinnost použitých metod není vysoká, zejména proto, že výsledný komprimovaný text postrádá ucelenou (logickou, gramatickou) strukturu původního textu.
V dalším textu chceme poukázat na fakt, že výše uvedené problémy lingvistické analýzy textu nejsou jen předmětem akademických úvah, ale že se o jejich řešení pokoušejí i prakticky orientovaní odborníci sdružení kolem Internetu.
Pokusů o vytvoření inteligentních algoritmů na prohledávání fultextových databází existuje celá řada, avšak řešení, s kterými by se řešitelé odvážili předstoupit před uživatele celosvětové sítě Internet, není mnoho. V našem článku jsme se zaměřili na dva systémy automatického zpracování a komprimace obsahu s originálními názvy:
1. DATA HAMMER INTRANET (DHI)
2. INTELLIGENT MINER for text
Ad 1) DATA HAMMER INTRANET [4]
Data Hammer Intranet je program, který automaticky sumarizuje, komprimuje texty dokumentů v 16 jazycích mezi nimi také v češtině. Pracuje rychlostí 10 stran za sekundu při frekvenci 150 MHz.
Proti programům, které jsou schopny vybírat pouze celé, obsahově významné věty a skládat je k sobě, je program DHI inteligentní, umožňuje sestavit smysluplný text, uchovává neporušenou jeho původní strukturu a je extrémně rychlý. Používá algoritmus Glukose MTT (Microword Tree Trimming) opírající se o tzv. Transfer Theory, jejíž podstatou je porozumění způsobu přenosu informace mezi komunikujícími.
Algoritmus výrobce z pochopitelných důvodů tají. Úseky textu obsahující významné informace systém vyhledává údajně podle subtilních náznaků v rytmu textu. Změny v rytmu jsou údajně signálem tematických rozhraní (změn) v textu a podle nich lze vyhledat místa obsahující důležité či nedůležité informace. Podle odborníků, kteří systém testovali, dochází až k 80% zkrácení textů.
Autoři systému připojují ke článku ukázky výsledků komprimace. Z ukázky 1a, 1b vyplývá, že systém umožňuje:
- vytvářet smysluplnou a gramaticky správnou větu z výrazů, které nebyly v textu použity nebo je schopen sestavit větu z výrazů použitých z většího počtu vět (viz věta 1 sumarizace),
- vynechat věty, které považuje za redundantní nebo obsahově méně významné,
- registrovat podstatné numerické údaje.
Ad 2) INTELLIGENT MINER for text [5]
Tento systém si neklade tak náročné cíle jako systém předchozí. Není rovněž určen pro přesné čtení odborníků exaktních věd, ale má sloužit jako pomůcka ve sféře marketingu, zda vyhledané texty stojí za povšimnutí nebo nikoliv.
IBM vyvinula následující nástroje na analýzu textu
1. Vyhledávání klíčových výrazů textu (Extraction Tool)
2. Přiřazování obsahových kategorií textu (Categorization tool)
3. Uspořádání vyhledaných textů do skupin podle obsahové podobnosti (Clustering tool)
1. Systém vyhledání klíčových výrazů textu
(viz ukázka č. 2 [6]) Systém pracuje na bázi slovníku, který se vytvoří automatickou analýzou reprezentativního vzorku textů. Systém se skládá z následujících subsystémů:
Subsystém stanovení vah slovníkových výrazů
V tomto subsystému se výrazům přiřadí číselná hodnota vyjadřující poměr frekvence výskytů v analyzovaném dokumentu k frekvenci výskytů v celém souboru dokumentů. Výraz, který má větší hodnotu výskytu v analyzovaném textu než v souboru textů, má větší IQ.
Subsystém jmenných výrazů, jmen osob, organizací a lokalit
Vyhledává jednoslovné a víceslovné výrazy podle slovníku. Je schopen se orientovat ve víceslovných výrazech stejného významu, ale odlišného způsobu zápisu, z nichž vytvoří kanonickou formu (např. z výrazů President USA Clinton – Mr. Clinton – Bill Clinton vybere jako kanonický výraz např. Bill Clinton).
Subsystém odborných termínů
Kriteriem pro výběr termínů je opakovanost termínu v textu. Používá souboru tzv. HEURISTICS, které identifikují v textu víceslovné technické termíny.
Subsystém zkratek
Vychází ze standardních slovníků zkratek. Pomocí nich je schopen rozpoznat i víceslovné výrazů v textu (např. zkratku EEPROM rozpozná i ve výrazech – "electrical erasable PROM" či "electrical erasable programmable read-only memory").
2. Systém přiřazování obsahových kategorií textu (Categorization tool)
Tento systém dokáže přiřadit souboru analyzovaných textů predefinované obsahové kategorie. Simuluje tak některé knihovnické operace – katalogizace.
Pro vytvoření kategorií jsou použity výsledky subsystému Feature Extraction. Pro účely tohoto systému je nutné ovšem slovník klíčových slov vytřídit od nerelevantních výrazů. To se uskutečňuje rovněž automaticky porovnáním slovníku se souborem relevantních textů, čímž se dospěje k jakýmsi kategoriálním schématům.
3. Systém uspořádání vyhledaných textů do skupin podle obsahové podobnosti (Clustering tool)
Cluster neboli shluk lze definovat jako množinu dokumentů, jejíž prvky jsou vzájemně podobnější než prvky ostatních množin dokumentů.
Tento systém poskytuje informace o obsahu větší skupiny dokumentů. Identifikuje latentní obsah této skupiny, seskupuje obsahově podobné dokumenty a rovněž identifikuje dokumenty duplicitní. K měření podobnosti používá sémantickou analýzu.
Je schopen soubor analyzovaných textů uspořádat podle údaje o počtu výskytů kategorie nebo skupiny kategorií v textu.
Závěr
Popisované systémy nejsou samozřejmě jedinými systémy umožnující analýzu textu. Byly vybrány proto, že se opírají o ověřené metody, že nabízí výsledky své činnosti k veřejné diskusi a především jsou přístupné široké obci uživatelů na Internetu. Pro zájemce, kteří mají zájem se seznámit s programovými produkty pro nejrůznější aspekty lingvistické analýzy textu, odkazujeme na stránky, kde se mohou dozvědět o těchto systémech technické podrobnosti.
Jde o celou škálu řešení náležejících do kategorie Textová analýza [7].
Bibliografie
1. RUML, J. Sexualita. Lidové noviny, 1998 roč. 9, č. 226, s. 16.
2. HOUSER, P. Vývojové nástroje pro Internet. Computerworld, 1998, roč. 9, č. 40, s. 15-18.
3. JONÁK, Z. Automatická komprimace plných textů. Knižnice a vedecké informácie. 1985, roč. 17, č. 6, s. 261-269.
4. JONÁK, Z. Naučíme počítače chápat obsah textů v přirozeném jazyce? PC Word, 1991, č. 10, s. 80-85.
Ukázka 1a: Sumarizovaný text [8]:
* Clinton said he was pleased that United States has reached historic agreement with other nations of world to take unprecedented action to address global warming.
* It reflects commitment by our generation to act in interests of future generations.
* No nation is more committed to effort than United States.
* Our mission was to persuade other nations to find common ground so we could make realistic and achievable commitments to reduce greenhouse gas emissions.
* Momentum generated by Vice President Gore´s visit helped move negotiation to successful conclusion and I thank him.
* Clinton said pact strongly reflects commitment of United States to use tools of free market to tackle difficult problem.
* Negotiators worked out pact to limit greenhouse gas emissions in all-night negotiations in Kyoto.
* It must then be ratified by each country´s legislature before it becomes treaty.
* Twenty-one other industrialized countries would set similar targets between years 2008 and 2012.
* Developing world´s participation in agreement has been scrapped in exchange for deal on trading emissions by developed nations.
Senior United States official called agreement work in progress It´s.
Ukázka 1b: Původní text: [9]
Clinton Hails Global Warming Pact
But early Senate ratification is unlikely
NEW YORK (AllPolitics, Dec. 11) -- President Bill Clinton today hailed the global warming pact negotiated in Japan as "environmentally strong and economically sound."
In a statement and comments to reporters, Clinton said he was pleased by the agreement, but wished it was stronger in calling for the participation of developing nations.
Nevertheless, Clinton called it "a huge first step" and said the agreement "reflects a commitment by our generation to act in the interests of future generations."
Said Clinton: "No nation is more committed to this effort than the United States. In Kyoto, our mission was to persuade other nations to find common ground so we could make realistic and achievable commitments to reduce greenhouse gas emissions. That mission was accomplished. The United States delegation, at the direction of Vice President [Al] Gore, and with the skilled leadership of Undersecretary Stuart Eizenstat, showed the way. The momentum generated by Vice President Gore´s visit helped move the negotiation to a successful conclusion and I thank him."
Clinton said the pact "strongly reflects the commitment of the United States to use the tools of the free market to tackle this difficult problem."
Republican critics in the Senate already have denounced the pact, and the president conceded there are hard challenges ahead, particularly on limiting emissions in developing nations. "But the industrialized nations have come together, taken a strong step, and that is real progress," he said.
Negotiators worked out the pact to limit greenhouse gas emissions in all-night negotiations in Kyoto. The compromise calls on European nations to reduce emissions 8 percent below 1990 levels by 2008-2012, the U.S., 7 percent; and Japan, 6 percent.
The agreement was approved by the climate conference plenary, making it a draft treaty. It must then be ratified by each country´s legislature before it becomes a treaty.
Twenty-one other industrialized countries would set similar targets between the years 2008 and 2012. The developing world´s participation in the agreement has been scrapped in exchange for a deal on trading emissions by developed nations.
A senior U.S. official called the agreement "a work in progress ... It´s not everything the U.S. wanted but the best it could get."
Ukázka 2: Extraction tool [6]