Čas nutný k přečtení

6 minut

Tisk

a- a+

Již přečteno

Český národní korpus

10 comments

Autoři:

Schmiedtová, Věra

Vydání:

1999, ročník 3, číslo 5

Rubrika:

Informační zdroje, služby, aplikace

Jedním z největších problémů pro vědce je získávání materiálu, na kterém zkoumá svůj problém. Například lingvisté v minulosti sbírali své jazykové doklady tak, že si je vypisovali na jednotlivé lístečky - excerpta, zapisovali zdroj, odkud daný výskyt získali a celý kontext, ve kterém se slovo nebo gramatický jev vyskytl. Potom setřídili excerpta abecedně. Tím vznikl archiv.

V Čechách máme takovýchto archivů, věnovaných různým jazykovým obdobím, několik. Největší je v Ústavu pro jazyk český. Vznikal před zpracováním výkladových slovníků novodobé češtiny. Vzhledem k tomu, že výkladový slovník současné češtiny nebyl průběžně obnovován, nebyl doplňován ani tento archív. Zmizela v něm tedy tolik nutná časová kontinuita.

Před pádem komunismu jsme měli jen kusé představy o tom, jak by se sběr materiálu mohl dělat. Ne snadněji, ale efektivněji. S pomocí počítačů. Padla železná opona a k nám začaly proudit nejen počítače, v komputeriazaci jsme za deset let skutečně na světové úrovni, ale proudily i informace, jak to tedy ten Západ dělá. Nejenom informace proudily, ale my jsme se jeli podívat na anglické korpusy a přijížděli lidé, kteří, po našich dvaceti promarněných letech, měli skutečný náskok. Bylo jasné, že chceme-li se postavit na roveň vyvinutým západním státům a chceme-li doplnit všechny mezery ve zkoumání naší mateřštiny, musíme se pustit do budování jazykového korpusu .

Vznikla iniciační skupina Počítačový fond češtiny. Lidé v něm zúčastnění se pustili do práce. Sháněli informace, podporu, popularizovali, snažili se získat finanční zajištění pro nové pracoviště. Byla to nekonečná řada jednání, vysvětlování, ale i obrana proti nepřátelům. Díky zřízení grantového systému, díky pochopení sponzorů, ale i díky pochopení děkana Filozofické fakulty UK doc. Františka Vrhela vznikl nový ústav - Ústav Českého národního korpusu. Založen byl 9. září 1994. Jeho pravidelná práce začala 1. října 1996, kdy byl vytvořen tým stálých zaměstnanců a ústav mohl zahájit svou činnost ve vlastních, nově vybavených prostorách. Sídlí v hlavní budově FF UK. Pokud byste nás chtěli navštívit, tedy před bufetem zahnete doleva a sejdete do suterénu. Zde se nachází naše "undergroundová" pracovna, číslo dveří 51-53.

Na práci ÚČNK se podílejí bohemistická a lingvistická pracoviště FF UK: Ústav teoretické a komputační lingvistiky, Ústav bohemistických studií, Katedra českého jazyka. Dále spolupracují Ústav pro jazyk český AV ČR v Praze, Ústav formální a aplikované lingvistiky MFF UK, Ústav českého jazyka a slovanské jazykovědy FF MU v Brně, Fakulta informatiky MU, Elektrotechnická fakulta ČVUT, katedra počítačů a Ústav pro českou literaturu.

Cílem práce ÚČNK je budování, rozvoj a údržba Českého národního korpusu, rozsáhlého reprezentativního souboru počítačově zapsaných textů, který bude sloužit k mnohostrannému poznání jazyka. Na základě korpusu by měl vzniknout výkladový slovník současné češtiny. Jako zdroj dosud nevídaného jazykového materiálu bude korpus sloužit nejen lingvistům, ale i širokému spektru zájemců z jiných oborů, jako je například literární věda, psychologie, sociologie, ale i z oblastí zdánlivě s jazykem nesouvisejících, jako je třeba matematika a informatika. V tomto smyslu bude korpus prostředkem nejen ke kultivování a poznávání českého jazyka, ale umožní i zkoumání zákonitostí lidského myšlení, chování a dalších jevů a šíře i studium naší současnosti a kultury, jak je odráží jen jazyk.

Koncem roku 1997 korpus dosáhl 70 milionů tvarů slov a na konci roku 1998 již měl 100 milionů tvarů. Postupně bude vyvažován k reprezentativní podobě a počet slov se bude plánovitě zvyšovat. V reprezentativní podobě v počtu 100 milionů slov bude předán ke zpracování lexikografickému pracovišti, bude se ovšem i dále rozvíjet. Korpus se bude skládat jednak z textů synchronních, jednak z diachronních; bude obsahovat složku psaného i mluveného synchronního jazyka. Části korpusu budou gramaticky a syntakticky označkovány a budou na něm prováděny statistické a frekvenční studie.

Prvních dvacet milionů běžných tvarů slov, tedy pilotní korpus složený z textů Lidových novin ročníků 1991-94, Mladé fronty Dnes ročník 1992, Vesmíru ročníků 1991-93 a Reflexu 1994-95, je v počítačové síti Internet na adrese:

http://ucnk.ff.cuni.cz/cnc

Můžete si ho vyzkoušet, případně použít pro svou práci. Pro studijní účely lze dojednat individuální podmínky přístupu ke korpusu v mnohem sofistikovanější podobě.

Úkol pro čtenáře:
Vytvořte alespoň tři složená slova se základem vláda (pozor, ne odvozená!)

Řešení:
Taky se Vám to zdálo neproveditelné? My jsme s pomocí korpusu našli tyto možnosti:
světovláda
hrůzovláda
lidovláda
samovláda
krutovláda
lůzovláda
vševláda
spoluvláda
sebevláda

Na setkání s Vámi a s Českým národním korpusem se těší

Klíčová slova:

databáze

lingvistika

Hodnocení:

Jsou zde 10 komentáře

Napsal uživatel Jan Fiala (neověřeno) dne 15. Únor 2005 - 0:00.

Výkladový slovník českého jazyka

Rozhodně si myslím, že na trhu chybí výkladový slovník českého jazyka. Kdysi existovala, tuším osmidílná, verze. Hodně jej postrádám a marně jej sháním.

odpovědět

Napsal uživatel Jan Fiala (neověřeno) dne 15. Únor 2005 - 0:00.

Výkladový slovník českého jazyka II

Ještě bych rád dodal, že slovník spisovné češtiny, který je v současné době k mání, je naprosto nedostatečný co se počtu hesel týká, ale hlavně zpracováním jednotlivých definic.

Proč zpracováním definic? Podívejte se na jednu z definic slova "přebrat" (namátkou vybrané slovo): 2. převzít 1, přejmout 2, ujmout se 2. Toto není definice slova. To jsou pouhé odkazy na další hesla, jež mají každé své vlastní definice (a které často obsahují další odkazy). Tento slovník je bohužel plný odkazů, které jen matou a stěžují osvětlení významu té které definice. Používání těchto odkazů místo definic navíc smazává nuance mezi významy jednotlivých slov.

Myslím, že naši jazykovědci a "slovníkotvůrci" :o) by si v tomto měli vzít za příklad leckteré cizojazyčné slovníky. Mě je blízký anglický jazyk a vím, že existuje spousta výborných výkladových slovníků, které obsahují kvalitní definice.

A to je to, o co ve skutečnosti jde - kvalitní definice, které vysvětlí význam jednotlivých slov, ale také ukáží rozdíly mezi jednotlivými synonymi.

Máme co dohánět.

J.F.

odpovědět

Napsal uživatel Redakce Ikaros.cz dne 1. Listopad 2005 - 0:00.

SSJČ

Osmisvazkový Slovník spisovného jazyka českého se dá koupit v antikvariátech. Jde o mírně upravenou verzi čtyřsvazkového slovníku, který vyšel v v letech 1960-71, takže je už dost zastaralý. Jiný slovník obdobného rozsahu ovšem zatím není, připravuje se však v Ústavu pro jazyk český AV ČR. Jak nás informoval J. Chromý, "ÚJČ v současné době intenzivně pracuje na lexikografické databázi založené na nejnovějších lexikografických metodách. Z této databáze by v horizontu několika let měl vzniknout zbrusu nový výkladový slovník češtiny."

odpovědět

Napsal uživatel Anonym (neověřeno) dne 18. Prosinec 2006 - 16:55.

Český výkladový slovník

Český výkladový slovník také docela postrádám. A navíc si myslím, že by bylo šikovné, aby byl přístupný po internetu. Možná by mohl fungovat i podobně jako Wikipedie, tedy jako otevřená encyklopedie, kam sami návštěvníci stránek mohou přidávat další a další slova a definice, a tak se encyklopedie neustále rozrůstá a téměř samočinně obnovuje.

odpovědět

Napsal uživatel Julie (neověřeno) dne 26. Říjen 2007 - 10:35.

český výkladový slovník

Rozhodně na českém trhu postrádám jakékoli zpracování českého výkladového slovníku. Například ve Francii vychází několik druhů těchto slovníků. Je smutné, že u nás nejsme schopni sestavit ani jeden pořádný.
O slovníku spisovné češtiny raději ani nehovořím. Bídně zpracované vydání je prosto svého účelu.

odpovědět

Napsal uživatel Anonym (neověřeno) dne 2. Březen 2011 - 15:48.

Jó, je to pravda. Když

Jó, je to pravda. Když jsem v ČR hledal dobrý výkladový slovníč češtiny divil jsem se, že je jen jeden a ještě více, když jsem se dověděl, že tam chybí mnoho nevzácných slov. Používám ho na vytvoření česko-katalánského slovníku a ještě čekám na lepší verzi.

odpovědět

Napsal uživatel krizenecky (neověřeno) dne 1. Březen 2009 - 17:55.

http://ucnk.ff.cuni.cz/cnc

The requested URL /cnc was not found on this server.
Apache Server at ucnk.ff.cuni.cz Port 80

odpovědět

Napsal uživatel Anonym (neověřeno) dne 31. Srpen 2010 - 18:06.

Strejda Google

Mohlo by to být tohle?
http://ucnk.ff.cuni.cz/verejny.php

odpovědět

Napsal uživatel Annna (neověřeno) dne 28. Březen 2009 - 15:41.

Existuje nějaký slovník synonym a antonym na CD?

Moc prosím, má někdo tušení, zda existuje nějaký slovník synonym (popř. i antonym) na CD nebo DVD? Jestli ano, kde jej možno nalézt?
Děkuji za ochotu.

odpovědět

Napsal uživatel Mgr. Josef Schwarz dne 30. Březen 2009 - 17:01.

Existuje

Slovník českých synonym a antonym / [slovník vytvořil autorský
kolektiv pracovníků Lingea s.r.o.]. -- 1. vyd.. -- V Brně : Lingea,
2007. -- 573 s. ; 20 cm + 1 CD-ROM. Zakoupíte v každém větším knihkupectví. JS

odpovědět