Jazykové korpusy: Španělsko, Rusko, Slovensko
Úvod
Snad každý stát se snaží vytvořit vlastní jazykový korpus založený na nejrůznějších textech. Náš seriál se je pokusil přiblížit. Věnovali jsme se nejen zdařilým projektům. Dnešní díl, který je zároveň dílem závěrečným, stručně představí španělský, ruský a slovenský korpus.
Španělsko
Corpus del Español
Corpus del Español [4] je vystavěn na vybraných španělských textech z 12. až 19. století (celkově obsahuje 100 milionů slov). Jeho tvůrcem je Mark Davies z Brigham Young University. Vstupem je přehledné webové rozhraní, které je zaměřeno hlavně na vyhledávání. Vyhledávat lze slova, fráze, lemmata atp. včetně jejich kombinace. Samozřejmostí je možnost omezení vyhledávání na texty z určitého století. Zobrazení výsledků hledání je možné též upravit (např. řazení podle frekvence, relevance). Korpus neslouží jen k hledání určitých slov, ale umožňuje je i porovnávat mluvené slovo s jeho užitím v beletrii, novinách aj. nebo texty z vybrané historické periody (i mezi stoletími). Možnosti vyhledávání jsou poměrně široké a je jen na uživatelích, jak je využijí.
Součástí webu je představení korpusu, pětiminutová „tour“ po korpusu s návodem na hledání.
Rusko
Russian National Corpus
Ruský národní korpus [5] je korpusem moderní ruštiny, který obsahuje přes 150 milionů slov (v plánu je rozšíření na 200 milionů slov). Reprezentuje jazyk v jeho vývoji v různých žánrech (žánrové, stylové, uzemí či sociální varianty jeho užívání).
Snahou je, aby sbírka textů byla vyvážená a obsahovala nejrůznější druhy textů v podílu, který zhruba odpovídá podílu jejich rozložení v reálném životě. Všechny texty jsou anotované, což korpus odlišuje od ostatních textů dostupných na internetu, navíc obsahuje nejen „zajímavé“ a „užitečné“ texty, ale i texty druhořadé, které jsou však významné pro studium jazyka. Anotace jsou metatextové, morfologické, sémantické a anotace přízvuku, v plánu je syntaktická anotace.
Cílem korpusu je usnadnit akademický výzkum jazyka pro slovníky a gramatiky. Využit je pro statické analýzy textů i pro zachycení vývojových změn jazyka.
Obsažené texty jsou z období 18. až 21. století. Díky tomu jsou zahrnuty nejrůznější texty (literární, hovorové, dialekty, poezie, ale i memoáry, eseje, vědecké publikace, veřejné projevy aj.), a to jak mluvené, tak psané.
Korpus obsahuje několik subkorpusů:
- úplně morfologicky a syntakticky anotovaný korpus,
- rusko-anglický paralelní korpus,
- korpus dialektů,
- korpus básnických textů,
- vzdělávací korpus (s texty upravenými pro výuku),
- korpus mluvené ruštiny.
Webová prezentace je velice přehledná, základní informace o korpusu jsou zpracovány i v anglickém jazyce. Taktéž přehledné rozhraní pro vyhledávání [6] má pouze verzi v ruštině. Prohledávat lze všechny výše zmíněné korpusy. K dispozici je jak jednoduché, tak pokročilé vyhledávání. Podobně jako většina korpusů neslouží jen k lingvistickým účelům.
Slovensko
Slovenský národný korpus
Slovenský národní korpus [7] (SNK) je přes webové rozhraní přístupný bez registrace, ale s omezeným využitím a přístupem pouze ke dvěma korpusům. Plný přístup lez získat registrací, vyhledávání je umožněno (podobně jako v Českém národním korpuse) pomocí programu Bonito.
SNK je určen nejen pro lingvisty, ale i pro veřejnost, a to jen pro nekomerční účely. Je složen z jednojazyčného korpusu psaných textů (obsahuje 350 milionů slov, od roku 2007 je přístupný ve verzi prim-3.0), ručně morfologicky anotovaného korpusu (verze r-mak-2.0, více než 500 tisíc výrazů) a několika paralelních korpsů (např. rusko-slovenský paralalní korpus). Samostatně stojí korpus krymskotatarského jazyka.
Stejně jako v dříve zmíněných projektech i SNK zahrnuje nejrůznější jazykové styly a žánry (publicistické, umělecké, odborné).
Závěr
Přestože je dnešní díl seriálu o korpusech závěrečný, téma není zdaleka vyčerpané. Představeny by mohly být korpusy čínské, německé, francouzské, malajský či hebrejský, slovinský, maďarský a mnohé další, český nevyjímaje (viz Gateway to Corpus Linguistics on the Internet [8]). Všechny projekty mají široké využití a díky tomu, že se dají užít nejen ke zkoumání daného jazyka, ale i k jeho výuce, neomezují se proto pouze na rodilé mluvčí. Přestože jsou jednotlivé projekty na různé úrovni zpracování i prezentace, je jejich přínos nejen pro lingvisty nezpochybnitelný.
Hodnocení (pouze celkový pohled)
Corpus del Español:
Ruský národní korpus:
Slovenský národní korpus:
DAVIES, Mark. Corpus del Español (100 million words, 1200s-1900s) [online]. 2002- [cit. 2008-07-20]. Dostupné z WWW: <http://www.corpusdelespanol.org [9]>.
Russian National Corpus [online]. c2003-2008 [cit. 2008-07-21]. Dostupné z WWW: <http://ruscorpora.ru/en/index.html [10]>.
Slovenský národný korpus [online]. SNK JÚĽŠ SAV [cit. 2008-07-22]. Dostupný z WWW: <http://korpus.juls.savba.sk/ [7]>.