Jazykové korpusy: Skandinávské jazykové korpusy, část II – Norsko, Švédsko, Finsko
Úvod
V dnešním pokračování série článků o jazykových korpusech zavítáme opět do Skandinávie -konkrétně do Norska, Švédska a Finska. Představíme si jejich korpusové projekty, zhodnotíme jejich webové prezentace a možnosti vyhledávání v korpusech.
Norsko
The Oslo Corpus of Tagged Norwegian Texts
Norský korpusový projekt The Oslo Corpus of Tagged Norwegian Texts [4] byl iniciován Janne Bondi Johannessenem. Samotný korpus je rozdělen na dvě části – bokmål a nynorsk. První má velikost 18,5 milionů slov, druhá 3,8 milionů slov. Obě části jsou tagovány (morfologicky a syntakticky) podle standardu IMS Corpus Workbench, který vytvořil Institut pro strojové porozumění jazyku Univerzity ve Stuttgartu.
Korpus se skládá se z elektronických textů, které byly dostupné Textové laboratoři [5] v lednu 1999. Obsahuje texty z beletrie, novin/časopisů a faktografické prózy. Záměrem korpusu není být reprezentativní v jakémkoliv smyslu, ale poskytnout velké množství textů využitelných k prohledávání. Ačkoliv možnost omezení hledání na určitý typ textu a specifické zdroje umožňuje korpus částečně přizpůsobit konkrétním požadavkům uživatele.
Korpusový projekt, který zahrnuje sběr textů, gramatické tagování, anotaci zdrojů, kódování IMS a vývoj webového rozhraní byl založen Janne Bondi Johannessenem.
Vyhledávat lze jedno, dvě tři slova nebo část slova a slova také mohou být obklopena určitým počtem jiných slov. Specifikovat lze také žánr, ve kterém se má hledat, a gramatické kategorie. Bohužel korpus je dostupný až po registraci, proto nebylo možné vyhledávání podrobněji vyzkoušet.
Webová prezentace korpusu je velmi strohá, avšak obsahuje základní informace.
Tento korpus je jen jedním příkladem korpsových projektů, které jsou v Textové laboratoři tvořeny, z těch ostatních uvěďme alespoň Norwegian Speech Corpora [6].
Švédsko
Språkbanken (the Swedish Language Bank)
Již v 60. letech minulého století byla na Göteborgské univerzitě iniciována práce na lingvistickém korpusu, která skončila vytvořením jednoho z prvních velkých korpusů (Press-65) v jiném jazyce než v angličtině (obsahoval milion slov). Språkbanken [7] (Švédská jazyková banka) byla v roce 1975 ustanovena národním centrem s posláním sbírat, zpracovávat a skladovat textové korpusy (především švédské) s cílem zpřístupnit lingvistická data jak výzkumníkům, tak veřejnosti. Díky Språkbanken byly lingvistická a statictická data o nejrůznějších švédských textech zpřístupněna již v 70. letech minulého století.
Språkbanken určena nejen pro vědce ze Švédska, ale i pro vědce zahraniční. Vědci ji mohou využít pro empirický výzkum ruzných aspektů švédštiny, ale také jako pomocný zdroj k výuce jazyka na univerzitách (především ve Švédku a Finsku).
V současnosti je Språkbanken kombinací švédského textového korpusu, paralelního textového korpusu, švédského elektronického slovníku a nástrojů na zpracování, anotaci a prezentaci textových korpusů ve spojení se stabilní organizací potřebnou pro trvale rozsáhlé korpusové zpracování a prezentaci. Materiály do korpusu jsou průběžně přidávány. Důraz je kladen hlavně na moderní švédské texty ze zpráv a beletrie.
Díky neustálému rozvoji je nyní poskytnut přístup ke 20 korpusům skládající se z novinových článků, časopisů, novel, her, vládních a náboženských textů, slovníků (to vše nejčastěji ve švédštině). Všechny tyto korpusy jsou však netagované (odkaz na tagované korpusy je nefunkční). Přístup ke korpusům by měl být možný přes web The Concordances of the Bank of Swedish on the Internet [8], avšak vyhledávání (kromě možnosti výběru prohledávaného korpusu a dalších nastavení) je momentálně nefunkční.
Webová prezentace je také jednoduchá a stejně jako v předchozím případě obsahuje základní informace o korpusu. Velkým mínusem je nefunkčnost některých odkazů. Nezbývá proto než doufat, že se vše s avizovanou novou verzí systému zlepší.
Finsko
University of Helsinky Language Corpus Server – UHLCS
Server jazykových korpusů Helsinské univerzity [9] byl založen v 80. letech 20. století a je jakýmsi rozcestníkem ke korpusům, které se na univerzitě tvoří. Prvními korpusy na serveru byly korpusy finštiny, angličtiny a švédštiny. Jedním z prvních korpusů finštiny byl syntakticky anotovaný HKV-korpus (Hakuline, Karlsson & Vilkuna 1980). Na současných korpusech pracuje hned několik kateder Helsinské univerzity.
V současnosti obsahuje UHLCS korpusy více než 50 jazyků (např. finština, švédština, angličtina, němčina, latina, ruština, svahilština), a to včetně ukázek z menšinových jazyků, a rozsáhlý korpus reprezentující různé typy textů. Korpusy jsou získávány od různých institucí i individuálních poskytovatelů dat. Již na začátku 90. let 20. století čítaly finský, anglický a svahilský korpus několik milionů slov, které spoleně tvoří Helsiki Corpora I [10] (o celkové velikosti více než 53 milionů slov). Helsinky Corpora II [11] vznikl sloučením morfologicky analyzovaného korpusu uralských jazyků a dalších jazyků, kterými se mluví v Evropě a severní a centrální Asii.
UHLCS obsahuje jak korpusy, na kterých pracovali jen výzkumníci z Helsinské univerzity (např korpus svahilštiny), tak korpusy vzniklé díky mezinárodní spolupráci (např. korpus ruštiny).
Korpusy jsou organizovány tak, aby respektovaly jazykové rodiny, všechny jsou popsány specifickým metadatovým popisem, který také spojuje popisy korpusu. UHLCS obsahuje nástroje pro analýzu korpsu (např. morfologický analyzátoru finštiny) a několik konkordančních nástrojů. Použití většiny dat je omezeno na výzkum a výuku, proto je k používání korpusu potřeba mít vlastní účet.
Finland Swedish Text Corpus – FISC
Finland Swedish Text Corpus [12] vytváří Oddělení skandinávských jazyků a literatury na Univerzitě v Helsinkách. Korpus obsahuje 2,5 milionu slov moderních psaných švédských textů publikovaných ve Finsku v 90. letech. Jádro korpusu je doprovázeno menší sekcí mluveného jazyka. Jako oddělené sekce jsou v korpusu zahrnuty tyto typy textů: noviny, literatura (beletrie), neliterární próza (nebeletristická), oficiální dokumenty, přirozená konverzace.
Korpusové texty obsahují tagy s bibliografickými detaily, záhlavím, popisky, označením odstavců a dalších významných textových znaků. Tagy odpovídají doporučení TEI.
Korpus je dostupný je z Oddělení lingvistiky na Univerzitě v Helsinkách [9] na rozsáhlém korpusovém serveru běžícím pod unixovým operačním systémem.
Samozřejmostí jsou dostupné nástroje pro vyhledávání v korpusu. Korpus je možno využít k lingvistickému výzkumu, jazykovému učení, lexikografii, k tvorbě softwarů pro lingvistickou analýzu atp. Pro vyhledávání v korpuse je však třeba mít vlastní účet.
Webová prezentace UHLCS a FISC
Webová prezentace obou projektů je velice amatérská, nenápadná, ale funkční. Přináší dostatečné informace pro seznámení se s korpusy a jejich obsahem. Vzhledem k nutnosti registrace pro získání přístupu do obou korpusů a absence jakékoliv demoverze korpusu není vyhledávání v korpusech popsáno ani hodnoceno.
Závěr
Dnešní článek, který představil korpusové projekty Norska, Švédska a Finska, ukázal, že ne vše bývá líbivé a plně funkční, přestože se většinou jedná univerzitní projekty. Je však škoda, že o jejich prezentaci není lépe postaráno, protože využití korpusů se často neomezuje pouze na vědce, jejichž rodným jazykem je hlavní jazyk korpusu.
Hodnocení
Norsko
Webová prezentace:
Vyhledávání: nehodnoceno
Obsah informací:
Švédsko
Webová prezentace:
Vyhledávání: nehodnoceno
Obsah informací:
Švédsko
Webová prezentace:
Vyhledávání: nehodnoceno
Obsah informací:
Finland Swedish Text Corpus (FISC) [online]. Helsinki : Department of Scandinavian lnaguages and literature [cit. 2008-06-18]. Dostpuné z WWW: <http://www.nord.helsinki.fi/fisc/presseng.html [12]>.
Språkbanken [online]. Göteborg : Department of Swedisch Language Göteborg University, Updated 27 feb 2008 [cit. 2008-06-18]. Dostupné z WWW: <http://spraakbanken.gu.se/ [7]>.
The Oslo Corpus of Tagged Norwegian Texts (bokmål and nynorsk part) [online]. Oslo : University of Oslo, last updated 7 May 2007 [cit. 2008-06-18]. Dostupné z WWW: <http://www.tekstlab.uio.no/norsk/bokmaal/english.html [4]>.
University of Helsinki Language Corpus Server (UHLCS) [online]. Helsinky : University of Helsinky, Last updates Dec. 2007 [cit. 2008-06-18]. Dostupné z WWW: <http://www.ling.helsinki.fi/uhlcs/ [9]>.