Čas nutný k přečtení

6 minut

Tisk

a- a+

Již přečteno

Jazykové korpusy: WordNet, Penn Treebank Project, UCREL

0 comments

Anglicky

English title:

Language Corpora: WordNet, Penn Treebank Project, UCREL

English abstract:

<p>In this part of our laguage corpuses series we will introduce several projects, which are sometimes not corpuses in the true sense: WordNet is a large lexical database of English; Penn Treebank Project is an annotated corpus; UCREL (University Centre for Computer Corpus Research on Language) is a department at Lancaster University, which works on several different corpus projects. </p>

Autoři:

Opálková, Markéta

Vydání:

2008, ročník 12, číslo 5

Rubrika:

Informační zdroje, služby, aplikace

Úvod

V dnešním části seriálu o jazykových korpusech si představíme projekty, z nichž ne všechny jsou korpusy v pravém slova smyslu: WordNet je rozsáhlá lexikální databáze angličtiny; Penn Treebank Project je anotovaný korpus; UCREL (University Centre for Computer Corpus Research on Language) je katedra Lancasterské univerzity, na jejíž půdě se pracuje na několika různých (nejen) korpusových projektech.

WordNet

WordNet je rozsáhlá lexikální databáze angličtiny, která je vyvýjena pod vedením George A. Millera. Organizována je jako množiny kognitivních synonym (tzv. synsety) s popisem vztahů nejen mezi synonymy ve skupině, ale mezi synsety vzájemně. Skupiny jsou též vzájemně prolinkovány, slova či fráze se proto mohou objevit ve více než jednom synsetu. Všechna synonyma v synsetu obsahují slovníkové definice a ukázkové věty.

V synsetech jsou reprezentovány dva druhy vztahů – lexikální a sémantické (lexikální mezi sémanticky příbuznými slovními formami, sémantické mezi významy slov). Adjektiva jsou uspořádána v klastrech, které obsahují hlavičku synsetu a satelitní synset. Klastry jsou shlukovány kolem antonymních dvojic až trojic. Organizace klastrů může připomínat kolo – uprostřed je hlavička synstetu, paprsky jsou tvořeny satelitními synsety, kola mohou být spojena antonymy. Zvláštním typem adjektivního synsetu je tzv. pertanym reprezentující relační adjektiva. V tomto synsetu se často vyskytuje jen jedno slovo nebo fráze a odkaz na slovesa, z nichž jsou odvozena (podobně synsety s příslovci zas odkazují na přídavná jména, z nichž jsou odvozena).

Zdrojem slov pro WordNet byl např. Brown Corpus, L. Urdanga Základní kniha synonym a antonym (Basic Book of Synonyms and Antonyms, 1978) či 4. edice Rogetova mezinárodního tezauru (Roget’s International Thesaurus, 1977) od R. Chapmana. Vstupním seznamem slov se nakonec roku 1986 stal seznam slov vytvořený F. Changem. Dalším významným vstupem byl roku 1993 slovník COMLEX vytvořený na New York University. Ve WordNetu jsou zahrnuty pouze plnovýznamové slovní druhy.

O obsahu databáze, stejně jako o výzkumu dělaném pracovníky WordNetu na poli lingvistiky, získávání zanlostí, textové analýzy atp. se lze dočíst v publikaci "WordNet: An Electronic Lexical Database". Nejnovější dokumentace k databázi je dostupná online.

S WordNetem je spjato i několik dalších projektů:

Global WordNet Association – nekomerční organizace poskytující platformu pro diskusi, sdílení a propojení WordNetu s ostatními jazyky světa.
Mimida Project – báze WordNetu s mechanicky generovanou vícejazyčnou sémantickou sítí pro více než 20 jazyků, která vychází z online dostupných slovníků.
MultiWordNet – vícejazyčná lexikální databáze, která srovnává italský WordNet s princentonským (ve verzi 1.6).

Webová prezentace

Webová prezentace je jednoduchá (viz obr. 1), levý sloupec s navigačním menu však přehledně a logicky zpřístupňuje důležité části stránky. Autoři neopomněli uvést charakteristku projektu, zodpovědět nejčastěji kladené dotazy, zpřístupnit dokumentaci a statistiku WordNetu a také publikace spjaté s WordNetem. Zveřejnili též licenční podmínky a dali svým uživatelům možnost zaslat své komentáře, názory a připomínky. Samozřejmostí je online vyhledávací rozhraní a možnost stažení nejnovějších verzí WordNetu pro offline použití.

Obr. 1: Webová prezentace projektu WordNet

Webové stránky svým vzhledem trochu připomínají BNC a ANC, ale tato „minimalizace“ je spíše ku prospěchu věci.

Vyhledávání

Stránka pro vyhledávání (viz obr. 2) obsahuje jedno textové pole, do kterého lze zapsat hledaný výraz či frázi, a rolovací menu, které umožňuje vybrat zobrazené možnosti (hide example sentences, hide glosses, show frequenci counts, databaze location, lexical file info, lexical file numbers, sense keys, sense number). Tyto možnosti lze měnit v rámci vyhledaného slova, až se dostaneme k podobnému výsledku, který je zobrazuje obr. 3. Na obr. 4 jsou znázorněny rozkliknuté synsety.

Obr. 2: Stránka pro vyhledávání

Obr. 3: Výsledek vyhledávání

Obr. 4: Synsety

Ze stránky vyhledávání se dá prokliknout na hlavní stránku WordNetu, na stránku se slovníkem a s nápovědou. V nápovědě jsou přehledné rady, jak se neztratit ve výsledcích hledání.

Penn Treebank Project

Pen Treeban Project je anotovaný korpus Pennsylvánské univerzity. Anotuje se lingvistická struktury přirozeně se vyskytujících textů, ale například i antaci telefonní konverzace pro Switchboard korpus. Data jsou zpřístupněna díky LDC (Linguistic Data Consortium).

V roce 1995 byla vydána druhá edice korpusu na CD (bohužel webové stránky projektu neobsahují novější informace), která obsahuje kompletní první verzi korpusu, do níž byl zahrnut i Brown corpus. CD obsahovalo např. milion slov z Wall Street Journalu (z roku 1989), manuál pro použité tříděná a anotování, obsah předchozí verze či nástroj pro zpracování dat.

Webová prezentace projektu je velmi strohá a neaktuální (viz obr. 5). Obsahuje pouze základní informace, malou ukázku z korpusu Switchboard, odpovědi na dva „často kladené dotazy“, manuál ke způsobu anotace, informace o vydáních na CD aj. Možnost alespoň jednoduchého vyhledávání v korpuse chybí zcela.

Obr. 5: Webová prezentace projektu

UCREL

UCREL (University Centre for Computer Corpus Research on Language) je katedra Lancasterské univerzity, na jejíž půdě se pracuje na mnoha především korpsusových projektech. Členové UCREL jsou zapojeni do kompilace a anotace mnoha elektronických korpusů, často ve spolupráci s jinou institucí. Některé jsou zpracovány pouze jako prostý ortografický text, zatímco jiné mají vlastní druh anotace.

Vzhledem k tomu, že katedra pracuje zhruba na 20 korpusech, stručně si představíme jen některé z nich:

Corpora of South Asian languages – vytvořen díky projektu EMILLE (Enabling Minority Language Engineering) Lancasterské a Sheffieldské univerzity, koprus obsahuje 97 milionů slov jazyků jižní Asie, především těch, které je možno slyšet ve Velké Británii.
Lancaster Newsbooks Corpus – korpus textů zpráv ze 17. století, které byly sebrány pro studium žurnalismu 17. století.
The British National Corpus (BNC)– o BNC více viz článek Jazykové korpusy: Britský národní korpus
The Lampeter Corpus of Early Modern English Tracts – korpus obsahuje kolem milionů slov anglické pamfletové literatury pokrývající roky 1640-1740. Příklady textů jsou brány z každé dekády během vybraného století, které reprezentují několik žánrů.
The IBM Manuals Treebank – korpus počítačových manuálů o velikosti 800 000 slov
a mnoho dalších (seznam a stručný popis projektů lze nalézt klikem na odkazy Project a Corpora z hlavního menu úvodní stránky UCREL).

Webová prezentace (viz obr. 6) je opět poměrně jednoduchá, avšak oproti prezentaci Penn Treebank Projectu aktualizovaná a obsažná. Navigace po stránce je poměrně přehledná a jasná, poměrně obsáhlé hlavní navigační menu je dobrým rozcestníkem k důležitým informacím o UCRELu a jeho projektech.

Obr. 5: Webová prezentace projektu

Závěr

V dnešním pokračování seriálu o jazykových korpusech jsme si kromě jedné výjimky nepředstavili korpusy v pravém slova smyslu. V případě WordNetu se jedná o volně a veřejně dostupnou lexikální databázi angličtiny, jejíž struktura z ní dělá užitečný nástroj pro počítačovou lingvistiku a porozumění přirozenému jazyku. Penn Treebank Projekt je (hodceno pouze z hlediska webové prezentace) jakési torzo anotovaného korpusu a projektů UCREL je tolik, že jsme jich zmínili pouze minimum sloužící k hrubé představě o tom, na čem se v oblasti jazykových korpusů pracuje.

Hodnocení

WordNet
Webová prezentace:
Vyhledávání:
Obsah informací:

Penn Treebank Project
Webová prezentace:
Vyhledávání: nehodnoceno
Obsah informací:

UCREL
Webová prezentace:
Vyhledávání: nehodnoceno
Obsah informací:

(Poznámka: Nejnižší známka je jedna hvězdička, nejvyšší pět.)

Použité zdroje

The Penn Treebank Project [online]. University of Pennsylvania, last change 1999-02-02 [cit. 2008-04-26]. Dostupné z WWW: <http://www.cis.upenn.edu/%7Etreebank/home.html>.

UCREL : University Centre for Computer Corpus Research on Language [online]. Lancaster : UCREL, Lancaster University, c1993-2007 [cit. 2008-04-26]. Dostupné z WWW: <http://ucrel.lancs.ac.uk/>.

WordNet : a lexical databaze for the English language [online]. Princeton University, c2006 [cit. 2008-03-23]. Dostupné z WWW: <http://wordnet.princeton.edu/>.

Klíčová slova:

lingvistika

jazykové korpusy

Hodnocení:

Jazykové korpusy: WordNet, Penn Treebank Project, UCREL

Jazykové korpusy: WordNet, Penn Treebank Project, UCREL

Úvod

WordNet

Webová prezentace

Vyhledávání

Penn Treebank Project

UCREL

Závěr

Hodnocení

Ikaros.cz

Newsletter Ikaros.cz