Jazykové korpusy
Článkem Jazykové korpusy, jenž je stručným úvodem do problematiky korpusů, otevíráme téma několika následujících měsíců, kdy budou představeny vybrané české i zahraniční jazykové korpusy (např. britský, americký, polský), a to především z hlediska možností vyhledávání v nich a kvality jejich webové prezentace.
Korpusová lingvistika je poměrně mladá lingvistická disciplína. K jejímu rozvoji výrazně přispěl rozvoj počítačů a informačních technologií. Korpusy jako takové jsou založeny na velkém množství dat, která se zpracovávají, třídí, klasifikují, analyzují a vyhodnocují, což by bez pomoci různých softwarových nástrojů byl jen velmi těžko proveditelný úkol.
Co je to korpus
Co se pod pojmem textový, případně jazykový korpus vlastně rozumí? Jedná se o „vnitřně strukturovaný, unifikovaný a obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl” [ČERMÁK, 1995, s. 119]. Vzhledem k tomu, že se jedná o velmi rozsáhlý soubor dat [1], slouží pro práci s korpusem tzv. korpusové manažery. Ty umožňují v korpusu vyhledávat, zobrazovat výsledky (tzv. konkordance). Výsledky následně dále zpracovávat či ukládat.
Zdrojem dat pro korpusy je jak jazyk psaný, který převažuje, tak jazyk mluvený. Z psaných textů se data získávají třemi způsoby:
- konverzí,
- užitím techniky OCR
- a manuálním opisováním textů.
Záznam mluveného jazyka se převádí manuálně.
Korpusy lze samozřejmě také dělit. Nejzákladnější dělení je na korpusy psaného nebo mluveného jazyka. Dále existují korpusy synchronní, diachronní, všeobecné či specializované na určitý styl (publicistický, odborný), paralelní korpusy, anotované (značkované) [2]. I samotné uložení korpusů může mít různou podobu – od archivů (kolekcí) textů přes organizovanější textové banky po použití korpusového manažeru, který texty zakóduje do databáze a zároveň umožňuje prohlížení korpusu [KOPŘIVOVÁ, 2002]. Důležitou vlastností korpusu samého je zobrazení v podstatě libovolného kontextu pro hledaný jev, slovo či slovní spojení, včetně údajů o autorovi, zdroji textu atp.
Historie
Přestože se jedná o nové lingvistické odvětví, pojem korpus existoval již před 2. světovou válkou (byl však manuální a mnohonásobně menší) [ČERMÁK, v tisku]. V 50. letech minulého století „někteří američtí lingvisté (Hartus, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky)“ [PALA, 1996]. Počátkem 60. let minulého století začala vznikat korpusová lingvistika. Ve stejné době začal na Brown University v USA pod vedením H. Kučery a N. Francise vznikat první počítačový korpus současné americké angličtiny – Computational Analysis of Present-Day American English [PALA, 1996]. Od té doby rozsah i počet korpusů roste a korpusová lingvistika dnes, především díky zmiňovanému rozvoji informatiky, jen vzkvétá.
Závěr
Většina informací o čemkoliv je v jazyce. A přirozeným jazykem komunikují všichni, nejen lingvisté, kteří korpusy pro svá bádání s největší pravděpodobností využívají nejvíce (korpus lze využít ke tvorbě slovníků, gramatik, a to nejen elektronických). Proto nejsou korpusy určeny jen lingvistům, ale data v nich uložená použitelná i pro odborníky v řadě disciplín (sociology, psychology, překladatele, tvůrce učebnic, lexikografy aj.) [PALA, 1996].
Jako informační zdroj představuje korpus širokou nabídku napříč různými obory. Záleží jen na uživatelích, jak se jej chopí. Povaha a podoba korpusu a informace v něm a z něj získávaná bude záviset jak na tom, jakým způsobem bude zpracováván a dále rozvíjen [ČERMÁK, v tisku].
1. Zatím největším korpusem (obsahuje přes 1,7 miliardy slov) je německý projekt Cosmas [4].
2. Značkovacím metajazykem pro korpusy je Standard Generalized Markup Language – SGML [PALA, 1996].
- ČERMÁK, František. 1995. Jazykový korpus : Prostředek a zdroj poznání. Slovo a slovenost. 1995, roč. 56, č. 2, s. 119 - 140. ISSN 0037-7031.
- ČERMÁK, František. 2005. Korpus, informace a lingvistika. In Přednášky z XLVIII. běhu Letní školy slovanských studií. 1. vyd. Praha : Univerzita Karlova, Filozofická fakulta, 2005, s. 15-24 [cit. 2007-12-28]. Dostupné také z WWW: <http://korpus.cz/doc/korp-info-lingv.rtf [5]>. ISBN 80-86642-42-9.
- ČERMÁK, František. V tisku. Korpusová lingvistika : stručný historický přehled. In Český národní korpus [online]. Praha : Ústav Českého národního korpusu, c2004 [cit. 2007-12-28]. Dostupné z WWW: <http://korpus.cz/doc/korp_lingv_prehled.rtf [6]>.
- KOPŘIVOVÁ, Marie. 2002. Český národní korpus na přelomu tisíciletí. In Český národní korpus [online]. Praha : Ústav Českého národního korpusu, c2004 [cit. 2007-12-28]. Dostupné z WWW: <http://korpus.cz/doc/2002_cnk.rtf [7]>.
- KOPŘIVOVÁ, Marie. 1998. Slang a textový korpus. In Český národní korpus [online]. Praha : Ústav Českého národního korpusu, c2004 [cit. 2007-12-28]. Dostupné z WWW: <http://korpus.cz/doc/1998_slang.doc [8]>.
- PALA, Karel. 1996. Informační technologie a korpusová lingvistika (1). Zpravodaj ÚVT MU [online]. 1996, roč. VI, č. 3 [cit. 2007-12-28]. Dostupný z WWW: <http://www.ics.muni.cz/zpravodaj/articles/67.html [9]>. ISSN 1212-0901.
- RYCHLÝ, Pavel. 1997. Korpusy textů na FI MU. Zpravodaj ÚVT MU [online]. 1997, roč. VIII, č. 2 [cit. 2007-12-28]. Dostupný z WWW: <http://www.ics.muni.cz/zpravodaj/articles/113.html [10]>. ISSN 1212-0901.
- ŠULC, Michal. 2001. Tematická reprezentativnost korpusů. Slovo a slovesnost. 2001, roč. 61, č. 1, s. 63-61 [cit. 2007-12-28]. Dostupné také z WWW: <http://korpus.cz/doc/Temat_reprez.doc [11]>. ISSN 0037-7031.