Jazykové korpusy: Americký národní korpus
Představení ANC
Americký národní korpus [4] (American National Corpus, ANC) je elektronická sbírka psaných a mluvených textů americké angličtiny [1]. Cílem projektu je poskytnout co nejkomplexnější obraz americké angličtiny, který by měl sloužit nejen pro lingvistiku, lexikografii, vývoj strojového porozumění jazyku (např. jazykový překlad a rešeršní software), kompilaci slovníků a tezaurů, ale také pro vzdělávání na všech úrovních. Dá se říci, že vzniká jako protipól Britskému národnímu korpusu (o BNC viz článek Jazykové korpusy: Britský národní korpus [5]).
Finální verze korpusu by měla obsahovat minimálně 100 milionů slov (tzn. bude srovnatelný s Britským národním korpusem). Žánrově není ANC v podstatě nijak omezen, autoři se rozhodli zahrnout vedle klasických psaných a mluvených textů také texty z weblogů, chatů, e-mailů atp. Navíc mají v úmyslu do jádra pojmout dalších několik milionů slov, která budou vybrána k poskytnutí co nejúplnějšího a nejširšího výběru dat. Svými texty může do korpusu přispět každý, kdo je rodilým mluvčím americké angličtiny a své texty vytvořil v roce 1990 a letech pozdějších.
Finanční záštitu nad projektem má konsorcium nakladatelů slovníků americké angličtiny a společnosti, které mají zájem na zpracování jazyka. Konsorcium bylo založeno roku 1999 a vedle finanční podpory se stará o přísun materiálu do korpusu.
Přístup do korpusu je pro nekomerční uživatele možný až po zaplacení licenčního poplatku, pro komerční uživatele je podmíněna členstvím v Konsorciu ANC. O distribuci korpusu se stará Linguistic Data Consortium [6].
První verze ANC
První verze korpusu byla vydána na podzim roku 2003 a obsahovala více než 11 milionů slov psané a mluvené angličtiny. Texty zahrnuté v této verzi jsou ty, které byly do korpusu získány jako první, což je hlavní příčinou nevyváženosti korpusu. Přestože je korpus anotovaný a tagovaný, není tagování v XML ručně validované, záhlaví jsou minimální. Těchto nedostatků jsou si autoři vědomi a upozorňují na ně. Hlavním cílem tohoto vydání bylo získat zpětnou vazbu od uživatelů, aby podle ní mohlo být upravena konečná realizace korpusu.
Druhá verze ANC
Druhá verze korpusu obsahuje přes 22 milionů slov psané a mluvené americké angličtiny. Texty jsou anotované, pro část mluvenou je použito Penn tagestu. Podobně jako verze první je i tato verze nevyvážená, neproběhla ani ruční validace tagování v XML. Stejně jako v první verzi i zde autoři na chyby a nedostatky upozorňují. Cílem je taktéž získat zpětnou vazbu od uživatelů, aby se na základě jejich připomínek mohla data do finální verze upravit.
Obě prozatím zveřejněné verze lze prohledávat pomocí programu XAIRA, který byl vyvinut pro BNC, případně s programem SARA. Prohlížet lze též pod programem MonoConc [7], který je dostupný pouze za poplatek.
Část této verze o velikosti 14 milionů slov je nabídnuta volně ke stažení [8]. Je však nutno si ji nainstalovat (společně s ANC Tools, které slouží pro její spuštění). Po spuštění instalace nabídne instalační dialog možnost zaškrtnout, kterou z 12 nabídnutých žánrových ukázek korpusu chcete nainstalovat (viz obr. 1).
Obr. 1: Dialogové okno instalátoru Open ANC, které nabízí možnost zaškrtnout korpusy, které chceme nainstalovat
Na obr. 2 je pak hlavní okno nástroje ANC Tool.
Obr. 2: Hlavní okno nástroje ANC Tool
Přispívání do ANC
Přispívat do korpusu lze buď vlastními texty, nebo anotacemi k již v korpusu obsaženým textům. Přispěvatelé mohou zaslat (ne)publikované dokumenty růzých žánrů (beletrie, naučná literatura, poezie, novinové či časopisecké články, paflety, deníky i články z blogů, webových stránek či e-mailů). Tvůrci korpusu na tyto příspěvky poměrně spoléhají a doufají, že jim pomohou získat dostatečné množství textu tak, aby korpus mohl být reprezentativním příkladem užívání současné americké angličtiny, a to jak mluvené, tak psané.
Materiály zaslané do korpusu musí splňovat několik kritérii:
- nesmí být publikované před rokem 1990,
- autor/mluvčí musí být rodilým mluvčím americké angličtiny,
- přispěvatel musí vlastnit autorská práva k materiálům, případně musí být materiály veřejně přístupné,
- individuální dokumenty by měly obsahovat minimálně 2 500 slov,
- dokumenty by se měly být primárně textové (tzn. neměly by mít převahu tabulek, obrázků, grafů atp.).
Třebaže dokument splňuje výše zmíněná kritéria, do korpusu zařazen být nemusí, a to především proto, že korpus již může obsahovat dostatečně reprezentativní vzorek daného žánru, nebo nejsou-li autoři korpusu schopni extrahovat z dokumentu smysluplnou informaci (příliš dlouhé texty se totiž zkracují).
Autoři webových informačních stránek korpusu také neopomněli zmínit doporučovaný formát dokumentů, kterými chtějí uživatelé přispět, aby se do korpusu co nejlépe automaticky zpracovával. Vzhledem k tomu, že jsou dokumenty převáděny do formátu XML, upřednostňují také tento formát, nejlépe používá-li standard XCES, TEI nebo DocBook. Neodmítají ani HTML či klasické dokumenty ve formátech DOC či RTF. Nejtěžší pro zpracování jsou dokumenty ve formátu PDF aj.
Webová prezentace
Webové stránky ANC (viz obr. 3) jsou poměrně jednoduché, avšak dostatečně přehledné. Titulní stránka obsahuje základní informace o korpusu a jeho budoucím směřování, informuje o novinkách a zároveň je rozcestníkem ke všem důležitým informacím o korpusu, jeho tvůrcích a verzích.
Obsahují poměrně vyčerpávající informace o jednotlivých realizacích korpusu i jejich obsahovém záběru.
Obr. 3: Náhled titulní stránky ANC
Závěr
Americký národní korpus vzniká jako jakýsi protipól Britskému národnímu korpusu. Hlavní motivací pro jeho vznik jsou rozdíly mezi americkou a britskou angličtinou. Dosud byly vydány dvě verze korpusu o velikosti 11 a 22 milionů slov. Finální verze by měla být srovnatelná s korpusem britským, tudíž by měla obsavat kolem 100 miliónů slov. Hlavním zdrojem textů do korpusů jsou dokumenty od uživatelů, kteří však musí splnit několik podmínek (jednou z nich je být rodilým mluvčím americké angličtiny).
Přestože je korpus i pro nekomerční uživatele placený, je nabídnuta část druhé verze korpusu o velikosti 14 milionů slov (pod názvem Open ANC) volně ke stažení (je to také jediná možnost, jak do ANC „nahlédnout“, chybí totiž jakékoliv online demo). Je však nutná její instalace na počítač, což může být pro uživatele, kteří se s korpusem chtějí jen seznámit, poněkud odrazující.
V přístím díle si představíme další americké korpusové projekty.
Hodnocení
Webová prezentace:Vyhledávání: nehodnoceno
Obsah informací:
- Na speciální stránce [12] ANC se lze dočíst o rozdílech mezi americkou a (nejen) britskou angličtinou.
American National Corpus [online]. American National Corpus Project, c2002-2007 [cit. 2008-03-08]. Dostupné z WWW: <http://americannationalcorpus.org [13]>.