V paralelních korpusech leží budoucnost srovnávací jazykovědy

0 comments

Anglicky

English title:

Parallel corpora are the future of comparative linguistics

English abstract:

The September workshop of the Czech National Corpus was primarily designed for its current users and its aim was to provide an overview of the tools available for accessing its parallel corpora. New functionalities of the interface were introduced and demonstrated on practical examples. Besides that, the international audience present discussed the future of the field as well as the challenges they encounter in their work.

Autoři:

Richterová, Olga [1]

Vydání:

2013, ročník 17, číslo 9 [2]

Rubrika:

Pořádání informací [3]

Tým projektu Český národní korpus v pátek 6. září 2013 na Filozofické fakultě Univerzity Karlovy v Praze pořádal jednodenní workshop zaměřený na práci s paralelním korpusem InterCorp. Hlavním cílem akce bylo seznámit uživatele s aplikacemi a nástroji užívanými při práci s paralelním jazykovým korpusem a na základě případových studií prezentovaných formou konferenčních příspěvků jim ukázat, jaké možnosti skrývá. Byly také představeny změny a novinky v nové verzi rozhraní, která je k dispozici od dubna tohoto roku.

Paralelní korpus můžeme brát jako obdobu zrcadlových překladů, v nichž bývá na levé straně dvoustrany uveden originál a na té pravé překlad. V případě InterCorpu jde o texty, u nichž existuje česká verze – tedy např. překlady beletrie z a do češtiny – a které jsou zarovnané po větách tak, jak si překlady a originály odpovídají. Kupříkladu mezi angličtinou a češtinou tudíž můžeme zkoumat překladová řešení z několika desítek knih, a k některým můžeme přidat ještě jiné jazykové verze (což umožňuje porovnávat zároveň třeba i ruštinu a němčinu). Korpus je (po registraci) přístupný zdarma na adrese www.korpus.cz [4].

Workshop s výhledem na Hrad

Během dopolední části workshopu jim byl paralelní korpus InterCorp, který dnes obsahuje 32 jazyků, nejprve představen a potom se s ním učili sami pracovat, odpoledne následovala řada pěti tematicky velmi různorodých příspěvků od autorů z univerzit v Leedsu, Varšavě, Olomouci, a z Univerzity Karlovy. Věnovali se v nich nejrůznějším tématům: od polsko-českého lexikologického výzkumu sloves psychických stavů přes strojové učení až po téma více verzí téhož díla od téhož autora. Tento nástin možností, jak dnes dostupná data z InterCorpu využívat, zároveň ukázal, s čím se uživatelé nejčastěji potýkají (a taky co nejvíc oceňují). Vše zakončila velká závěrečná debata účastníků s tvůrci korpusu.

[5]
Přes šedesát účastníků se o půl desáté ráno setkalo ve velké posluchárně s výhledem na Pražský hrad. V místnosti nechybělo ani wi-fi připojení, které se jim během workshopu hodilo k praktickým ukázkám práce s korpusem.

Nové funkce rozhraní

Nejprve si připomeňme, jaké funkcionality přibyly v novém rozhraní a zvýšily uživatelský komfort. Jde především o možnosti nabízené v nejsložitějším typu dotazu, tzv. CQL: nově si můžete vybrat morfologickou značku (tag) a plně ji specifikovat pomocí rozbalovací lišty integrované přímo v rozhraní. Stejně tak je nyní snazší stanovit určitou podmínku (např. chceme-li vyhledávat v jazyce určitého autora či období) – i funkce "within" nyní má svou rozbalovací lištu. Dobře dostupná při vyhledávání v jakémkoli korpusu je nyní i klávesnice se speciálními znaky, což je zdánlivá maličkost, pro řadu uživatelů však představuje zásadní pomoc, protože si nemusejí pamatovat zkratky pro hranaté či složené závorky. Toto všechno, spolu s připravovaným manuálem k novému rozhraní, by mělo napomoci k co nejplnějšímu využívání možností, jež rozhraní zprostředkovávané Ústavem Českého národního korpusu nabízí.

Zásadním zlepšením je totiž ještě jedna změna: možnost přistupovat ke všem korpusům, jednojazyčným i paralelním, pomocí téhož rozhraní. Nově vyvíjený vzhled korpusového manažeru umožňuje snadno přecházet např. mezi korpusy řady SYN (pokrývajícími současnou mluvenou češtinu), BNC (British National Corpus je na požádání zpřístupňován všem uživatelům z Univerzity Karlovy) či jednojazyčnými webovými korpusy a právě korpusy řady InterCorp. Díky tomu lze i na paralelních korpusech provádět statistické operace a zjišťovat frekvenční distribuce. Jistou potíží, o níž účastníci hovořili, naopak je nemožnost exportovat z nového rozhraní přímo do tabulkového formátu pro MS Excel. Data uložená v textovém formátu jsou však rozdělena do sloupců tak, že je lze do podoby tabulky snadno převést; možnost ukládat ve formátu *.csv pak je záležitostí nejbližší doby.

Navzdory těmto výhodám též zaznívalo, že nové rozhraní zatím neumožňuje bez problémů filtrovat texty a jednoduše se podívat, v jakých textech vlastně hledáme. Dosud používané paralelní rozhraní Park tudíž může být pro některé uživatele ještě po nějakou dobu vstřícnější, i kvůli možnosti ukládat data přímo do MS Excel.

[6]
V panelové diskuzi se účastníci dozvěděli nejen o samotném projektu, ale zazněly i úvahy o budoucnosti srovnávací jazykovědy

Nač jsou paralelní korpusy dobré?

Jak několikrát zaznělo, nejvýraznějším přínosem paralelních korpusů je, že zprostředkovávají cestu k významu. Díky tomu mohou být např. korektivem existujících slovníků či pomůckou při překládání anebo vlastním formulování textů. K výzkumnému využití je zase třeba co nejvíc dbát na kvalitu metadat – např. informace o datu vydání původní publikace či o originálním jazyce jsou pro uživatele z vědeckých pracovišť klíčové. V závěrečné debatě se pak vracelo především téma výběru textů pro InterCorp: podle jakých kritérií mají koordinátoři jednotlivých jazyků vybírat knihy ke skenování? A existuje-li od zvoleného textu více než jeden překlad, jak vybrat ten, který bude do korpusu zařazený? Tato dilemata se zatím týkají pouze beletrie, zazněly ale i dotazy po rozšiřování podílu odborného jazyka. Vzhledem k obrovské náročnosti sběru a zpracovávání dat v tolika jazycích se nezdá reálné vydat se cestou vlastní práce na rozdílných odborných žánrech. Schůdná je každopádně cesta připojování tzv. balíčků – existujících souborů vícejazyčných textů, v současnosti se jedná např. o zahrnutí textů poskytnutých Evropskou centrální bankou (tj. z finančnictví).

Dále se uživatelé zmiňovali o potížích spjatých s rozdílnými způsoby počítání velikosti různých korpusů: některé udávají velikost ve slovech a jiné v tokenech (tj. pozicích, které zahrnují kupříkladu interpunkci): protože InterCorp počítá v tokenech, je obtížněji srovnatelný např. s největším korpusem pro francouzštinu. Podobně je škoda, že současné rozhraní neumožňuje srovnávat více překladů jednoho originálu v tomtéž jazyce (což souvisí i s výše zmíněnou potíží, jak ten jeden zahrnutý překlad vybrat).

V závěru se diskuze od praktických a metodologických otázek (jak získat kýžené texty pro malé jazyky či do jaké míry se držet těžko objektivizovatelného kritéria kvality překladu) stočila k budoucnosti InterCorpu. Od iniciátora celého projektu, profesora Františka Čermáka, zaznělo, že i on měl před deseti lety, když se celá věc dávala do pohybu, jisté pochyby. Dnešní rehabilitace korpusově založených srovnávacích studií, nezřídka upozorňující např. na rozdíly mezi příbuznými jazyky, však potvrzuje, že v paralelních korpusech leží odborná budoucnost srovnávací jazykovědy. Dodejme ještě, že velká jazyková data nabízejí tak širokou škálu využití, že ji v této krátké zprávě samozřejmě nelze pokrýt. O to důležitější je zdůraznit, že korpusy by měly být především služba nejširší veřejnosti, odborné i laické.

Poznámka: Workshop byl součástí realizace projektu Český národní korpus (LM2011023) financovaného Ministerstvem školství, mládeže a tělovýchovy v rámci aktivity Projekty velkých infrastruktur pro VaVaI.

Hodnocení: