Český národní korpus

10 comments

Autoři:

Vydání:

1999, ročník 3, číslo 5 [2]

Rubrika:

Jedním z největších problémů pro vědce je získávání materiálu, na kterém zkoumá svůj problém. Například lingvisté v minulosti sbírali své jazykové doklady tak, že si je vypisovali na jednotlivé lístečky - excerpta, zapisovali zdroj, odkud daný výskyt získali a celý kontext, ve kterém se slovo nebo gramatický jev vyskytl. Potom setřídili excerpta abecedně. Tím vznikl archiv.

V Čechách máme takovýchto archivů, věnovaných různým jazykovým obdobím, několik. Největší je v Ústavu pro jazyk český. Vznikal před zpracováním výkladových slovníků novodobé češtiny. Vzhledem k tomu, že výkladový slovník současné češtiny nebyl průběžně obnovován, nebyl doplňován ani tento archív. Zmizela v něm tedy tolik nutná časová kontinuita.

Před pádem komunismu jsme měli jen kusé představy o tom, jak by se sběr materiálu mohl dělat. Ne snadněji, ale efektivněji. S pomocí počítačů. Padla železná opona a k nám začaly proudit nejen počítače, v komputeriazaci jsme za deset let skutečně na světové úrovni, ale proudily i informace, jak to tedy ten Západ dělá. Nejenom informace proudily, ale my jsme se jeli podívat na anglické korpusy a přijížděli lidé, kteří, po našich dvaceti promarněných letech, měli skutečný náskok. Bylo jasné, že chceme-li se postavit na roveň vyvinutým západním státům a chceme-li doplnit všechny mezery ve zkoumání naší mateřštiny, musíme se pustit do budování jazykového korpusu .

Vznikla iniciační skupina Počítačový fond češtiny. Lidé v něm zúčastnění se pustili do práce. Sháněli informace, podporu, popularizovali, snažili se získat finanční zajištění pro nové pracoviště. Byla to nekonečná řada jednání, vysvětlování, ale i obrana proti nepřátelům. Díky zřízení grantového systému, díky pochopení sponzorů, ale i díky pochopení děkana Filozofické fakulty UK [4] doc. Františka Vrhela vznikl nový ústav - Ústav Českého národního korpusu [5]. Založen byl 9. září 1994. Jeho pravidelná práce začala 1. října 1996, kdy byl vytvořen tým stálých zaměstnanců a ústav mohl zahájit svou činnost ve vlastních, nově vybavených prostorách. Sídlí v hlavní budově FF UK. Pokud byste nás chtěli navštívit, tedy před bufetem zahnete doleva a sejdete do suterénu. Zde se nachází naše "undergroundová" pracovna, číslo dveří 51-53.

Na práci ÚČNK se podílejí bohemistická a lingvistická pracoviště FF UK: Ústav teoretické a komputační lingvistiky [6], Ústav bohemistických studií [7], Katedra českého jazyka [8]. Dále spolupracují Ústav pro jazyk český AV ČR [9] v Praze, Ústav formální a aplikované lingvistiky MFF UK [10], Ústav českého jazyka a slovanské jazykovědy FF MU [11] v Brně, Fakulta informatiky MU [12], Elektrotechnická fakulta ČVUT [13], katedra počítačů a Ústav pro českou literaturu.

Cílem práce ÚČNK je budování, rozvoj a údržba Českého národního korpusu, rozsáhlého reprezentativního souboru počítačově zapsaných textů, který bude sloužit k mnohostrannému poznání jazyka. Na základě korpusu by měl vzniknout výkladový slovník současné češtiny. Jako zdroj dosud nevídaného jazykového materiálu bude korpus sloužit nejen lingvistům, ale i širokému spektru zájemců z jiných oborů, jako je například literární věda, psychologie, sociologie, ale i z oblastí zdánlivě s jazykem nesouvisejících, jako je třeba matematika a informatika. V tomto smyslu bude korpus prostředkem nejen ke kultivování a poznávání českého jazyka, ale umožní i zkoumání zákonitostí lidského myšlení, chování a dalších jevů a šíře i studium naší současnosti a kultury, jak je odráží jen jazyk.

Koncem roku 1997 korpus dosáhl 70 milionů tvarů slov a na konci roku 1998 již měl 100 milionů tvarů. Postupně bude vyvažován k reprezentativní podobě a počet slov se bude plánovitě zvyšovat. V reprezentativní podobě v počtu 100 milionů slov bude předán ke zpracování lexikografickému pracovišti, bude se ovšem i dále rozvíjet. Korpus se bude skládat jednak z textů synchronních, jednak z diachronních; bude obsahovat složku psaného i mluveného synchronního jazyka. Části korpusu budou gramaticky a syntakticky označkovány a budou na něm prováděny statistické a frekvenční studie.

Prvních dvacet milionů běžných tvarů slov, tedy pilotní korpus složený z textů Lidových novin ročníků 1991-94, Mladé fronty Dnes ročník 1992, Vesmíru ročníků 1991-93 a Reflexu 1994-95, je v počítačové síti Internet na adrese:

http://ucnk.ff.cuni.cz/cnc [14]

Můžete si ho vyzkoušet, případně použít pro svou práci. Pro studijní účely lze dojednat individuální podmínky přístupu ke korpusu v mnohem sofistikovanější podobě.

Úkol pro čtenáře:
Vytvořte alespoň tři složená slova se základem vláda (pozor, ne odvozená!)

Řešení:
Taky se Vám to zdálo neproveditelné? My jsme s pomocí korpusu našli tyto možnosti:
světovláda
hrůzovláda
lidovláda
samovláda
krutovláda
lůzovláda
vševláda
spoluvláda
sebevláda

Na setkání s Vámi a s Českým národním korpusem se těší

Klíčová slova:

databáze [15]

lingvistika [16]

Hodnocení: