Sorry, you need to enable JavaScript to visit this website.

Český národní korpus

Čas nutný k přečtení
6 minut
Již přečteno

Český národní korpus

10 comments
Jedním z největších problémů pro vědce je získávání materiálu, na kterém zkoumá svůj problém. Například lingvisté v minulosti sbírali své jazykové doklady tak, že si je vypisovali na jednotlivé lístečky - excerpta, zapisovali zdroj, odkud daný výskyt získali a celý kontext, ve kterém se slovo nebo gramatický jev vyskytl. Potom setřídili excerpta abecedně. Tím vznikl archiv.

V Čechách máme takovýchto archivů, věnovaných různým jazykovým obdobím, několik. Největší je v Ústavu pro jazyk český. Vznikal před zpracováním výkladových slovníků novodobé češtiny. Vzhledem k tomu, že výkladový slovník současné češtiny nebyl průběžně obnovován, nebyl doplňován ani tento archív. Zmizela v něm tedy tolik nutná časová kontinuita.

Před pádem komunismu jsme měli jen kusé představy o tom, jak by se sběr materiálu mohl dělat. Ne snadněji, ale efektivněji. S pomocí počítačů. Padla železná opona a k nám začaly proudit nejen počítače, v komputeriazaci jsme za deset let skutečně na světové úrovni, ale proudily i informace, jak to tedy ten Západ dělá. Nejenom informace proudily, ale my jsme se jeli podívat na anglické korpusy a přijížděli lidé, kteří, po našich dvaceti promarněných letech, měli skutečný náskok. Bylo jasné, že chceme-li se postavit na roveň vyvinutým západním státům a chceme-li doplnit všechny mezery ve zkoumání naší mateřštiny, musíme se pustit do budování jazykového korpusu .

Vznikla iniciační skupina Počítačový fond češtiny. Lidé v něm zúčastnění se pustili do práce. Sháněli informace, podporu, popularizovali, snažili se získat finanční zajištění pro nové pracoviště. Byla to nekonečná řada jednání, vysvětlování, ale i obrana proti nepřátelům. Díky zřízení grantového systému, díky pochopení sponzorů, ale i díky pochopení děkana Filozofické fakulty UK doc. Františka Vrhela vznikl nový ústav - Ústav Českého národního korpusu. Založen byl 9. září 1994. Jeho pravidelná práce začala 1. října 1996, kdy byl vytvořen tým stálých zaměstnanců a ústav mohl zahájit svou činnost ve vlastních, nově vybavených prostorách. Sídlí v hlavní budově FF UK. Pokud byste nás chtěli navštívit, tedy před bufetem zahnete doleva a sejdete do suterénu. Zde se nachází naše "undergroundová" pracovna, číslo dveří 51-53.

Na práci ÚČNK se podílejí bohemistická a lingvistická pracoviště FF UK: Ústav teoretické a komputační lingvistiky, Ústav bohemistických studií, Katedra českého jazyka. Dále spolupracují Ústav pro jazyk český AV ČR v Praze, Ústav formální a aplikované lingvistiky MFF UK, Ústav českého jazyka a slovanské jazykovědy FF MU v Brně, Fakulta informatiky MU, Elektrotechnická fakulta ČVUT, katedra počítačů a Ústav pro českou literaturu.

Cílem práce ÚČNK je budování, rozvoj a údržba Českého národního korpusu, rozsáhlého reprezentativního souboru počítačově zapsaných textů, který bude sloužit k mnohostrannému poznání jazyka. Na základě korpusu by měl vzniknout výkladový slovník současné češtiny. Jako zdroj dosud nevídaného jazykového materiálu bude korpus sloužit nejen lingvistům, ale i širokému spektru zájemců z jiných oborů, jako je například literární věda, psychologie, sociologie, ale i z oblastí zdánlivě s jazykem nesouvisejících, jako je třeba matematika a informatika. V tomto smyslu bude korpus prostředkem nejen ke kultivování a poznávání českého jazyka, ale umožní i zkoumání zákonitostí lidského myšlení, chování a dalších jevů a šíře i studium naší současnosti a kultury, jak je odráží jen jazyk.

Koncem roku 1997 korpus dosáhl 70 milionů tvarů slov a na konci roku 1998 již měl 100 milionů tvarů. Postupně bude vyvažován k reprezentativní podobě a počet slov se bude plánovitě zvyšovat. V reprezentativní podobě v počtu 100 milionů slov bude předán ke zpracování lexikografickému pracovišti, bude se ovšem i dále rozvíjet. Korpus se bude skládat jednak z textů synchronních, jednak z diachronních; bude obsahovat složku psaného i mluveného synchronního jazyka. Části korpusu budou gramaticky a syntakticky označkovány a budou na něm prováděny statistické a frekvenční studie.

Prvních dvacet milionů běžných tvarů slov, tedy pilotní korpus složený z textů Lidových novin ročníků 1991-94, Mladé fronty Dnes ročník 1992, Vesmíru ročníků 1991-93 a Reflexu 1994-95, je v počítačové síti Internet na adrese:

Můžete si ho vyzkoušet, případně použít pro svou práci. Pro studijní účely lze dojednat individuální podmínky přístupu ke korpusu v mnohem sofistikovanější podobě.

Úkol pro čtenáře:
Vytvořte alespoň tři složená slova se základem vláda (pozor, ne odvozená!)

Řešení:
Taky se Vám to zdálo neproveditelné? My jsme s pomocí korpusu našli tyto možnosti:
světovláda
hrůzovláda
lidovláda
samovláda
krutovláda
lůzovláda
vševláda
spoluvláda
sebevláda

Na setkání s Vámi a s Českým národním korpusem se těší

Klíčová slova: 
Hodnocení: 
Zatím žádné hodnocení
SCHMIEDTOVÁ, Věra. Český národní korpus. Ikaros [online]. 1999, ročník 3, číslo 5 [cit. 2024-12-27]. urn:nbn:cz:ik-10341. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10341

automaticky generované reklamy

Jsou zde 10 komentáře

Rozhodně si myslím, že na trhu chybí výkladový slovník českého jazyka. Kdysi existovala, tuším osmidílná, verze. Hodně jej postrádám a marně jej sháním.

J.

Ještě bych rád dodal, že slovník spisovné češtiny, který je v současné době k mání, je naprosto nedostatečný co se počtu hesel týká, ale hlavně zpracováním jednotlivých definic.

Proč zpracováním definic? Podívejte se na jednu z definic slova "přebrat" (namátkou vybrané slovo): 2. převzít 1, přejmout 2, ujmout se 2. Toto není definice slova. To jsou pouhé odkazy na další hesla, jež mají každé své vlastní definice (a které často obsahují další odkazy). Tento slovník je bohužel plný odkazů, které jen matou a stěžují osvětlení významu té které definice. Používání těchto odkazů místo definic navíc smazává nuance mezi významy jednotlivých slov.

Myslím, že naši jazykovědci a "slovníkotvůrci" :o) by si v tomto měli vzít za příklad leckteré cizojazyčné slovníky. Mě je blízký anglický jazyk a vím, že existuje spousta výborných výkladových slovníků, které obsahují kvalitní definice.

A to je to, o co ve skutečnosti jde - kvalitní definice, které vysvětlí význam jednotlivých slov, ale také ukáží rozdíly mezi jednotlivými synonymi.

Máme co dohánět.

J.F.

Osmisvazkový Slovník spisovného jazyka českého se dá koupit v antikvariátech. Jde o mírně upravenou verzi čtyřsvazkového slovníku, který vyšel v v letech 1960-71, takže je už dost zastaralý. Jiný slovník obdobného rozsahu ovšem zatím není, připravuje se však v Ústavu pro jazyk český AV ČR. Jak nás informoval J. Chromý, "ÚJČ v současné době intenzivně pracuje na lexikografické databázi založené na nejnovějších lexikografických metodách. Z této databáze by v horizontu několika let měl vzniknout zbrusu nový výkladový slovník češtiny."

Český výkladový slovník také docela postrádám. A navíc si myslím, že by bylo šikovné, aby byl přístupný po internetu. Možná by mohl fungovat i podobně jako Wikipedie, tedy jako otevřená encyklopedie, kam sami návštěvníci stránek mohou přidávat další a další slova a definice, a tak se encyklopedie neustále rozrůstá a téměř samočinně obnovuje.

Rozhodně na českém trhu postrádám jakékoli zpracování českého výkladového slovníku. Například ve Francii vychází několik druhů těchto slovníků. Je smutné, že u nás nejsme schopni sestavit ani jeden pořádný.
O slovníku spisovné češtiny raději ani nehovořím. Bídně zpracované vydání je prosto svého účelu.

Jó, je to pravda. Když jsem v ČR hledal dobrý výkladový slovníč češtiny divil jsem se, že je jen jeden a ještě více, když jsem se dověděl, že tam chybí mnoho nevzácných slov. Používám ho na vytvoření česko-katalánského slovníku a ještě čekám na lepší verzi.

The requested URL /cnc was not found on this server.
Apache Server at ucnk.ff.cuni.cz Port 80

Mohlo by to být tohle?
http://ucnk.ff.cuni.cz/verejny.php

Slovník českých synonym a antonym / [slovník vytvořil autorský
kolektiv pracovníků Lingea s.r.o.]. -- 1. vyd.. -- V Brně : Lingea,
2007. -- 573 s. ; 20 cm + 1 CD-ROM. Zakoupíte v každém větším knihkupectví. JS