Jazykové korpusy: Skandinávské korpusové projekty
Úvod
V dnešním části seriálu o jazykových korpusech zamíříme do Skandinávie – konkrétně do Dánska – a představíme dánský korpusový projekt KorpusDK, jenž navazuje na předchozí projekty Korpus 90 a Korpus 2000 (s tímto korpusem se také blíže seznámíme). V Korpusu 90 a v Korpusu 2000 lze také vyhledávat z Danish Corpus Page.
Korpus 2000
Záměrem dánského projektu Korpus 2000 je formou textového korpusu dokumetovat užívání dánštiny kolem roku 2000. Texty tvořící korpus byly z větší části vytvořeny mezi lety 1998 až 2002. K zajištění co největší rozmanitosti ve složení korpusu, který obsahuje texty z mnoha růžných oblastí, byla založena sbírka dánských textů, tzv. „textová banka“. Ke každému textu (i exerptům z textů) byly přidány anotace (např. autor textu, rok vzniku textu, druh textu či původní publikační médium).
Sběr textů byl ukončen na jaře roku 2002. Korpus 2000 tvoří zhruba 28 milionů slov. Ke všem slovům byly přidány syntaktické a morfologické informace, čímž umožňuje jejich použití při vyhledávání. Dostupný z korpusového dotazovacího systému CQP, jenž vytvořil Institut für Maschinelle Sprachverarbeitung na Univerzitě ve Stuttgartu.
Korpus je určen každému, kdo se zajímá o používání dánštiny kolem roku 2000, a chce provádět svůj vlastní lingvistický výzkum. Korpus 2000 je také možno použít jako doplněk k tradičním slovníkům dánštiny.
Komparativním korpusem Korpusu 2000 je Korpus 90, který se skládá z excerpcí textů vzniklých mezi lety 1988-1992. Tento korpus je dost podobný Korpusu 2000 ve své kompozici a velikosti, a proto slouží jako starší komparativní korpus pro Korpus 2000.
Korpus byl vytvořen Katedrou dánské řeči a literatury (Det Danske Spreg – og Litteraturselskab). Autoři nabídli ke stažení nejen seznam nejfrekventovanějších slov (substantiv, adjektiv, sloves i slov neohebných), ale také celé korpusy, konkrétně Korpus 2000, Koprus 60, PAROLE corpus, Corpus of The Danish Dictionary a DK81-90. Stažení je však možné až po registraci.
Webová prezentace
Webová prezentace Koprusu 2000 (viz obr. 1) je poměrně jednoduchá a přehledná, i když poněkud matoucí. Všechny nabídky navigačního menu jsou totiž v angličtině, avšak text – až na výjimky (např. User’s guide a Summary) - je v dánštině. V angličtině je ale rozhraní pro vyhledávání, i když lze samozřejmě vyhledávat pouze dánská slova.
Přestože se jedná o stránky poněkud jazykově vzdálené, lze ocenit jejich funkčnost a zřejmou informační úplnost.
Obr. 1: Náhled titulní stránky Korpusu 2000
Vyhledávání
Vyhledávat lze v Korpusu 2000 jedno či více slov. Stačí je vepsat do vyhledávacího pole. Po odkliknutí vyhledávání se zobrazí dialog, který nabídne možnost vybrat si formu slova, která uživatele zajímá (viz obr. 2). Po potvrzení vybrané formy slova se zobrazí frekvence výskytu vybraného slova v Korpusu 2000 i Korpusu 90 (viz obr. 3). Poklikem na ikonku vyhledávání se zobrazí konkordanční řádky, obsahující minimální kontext, v němž se slovo vyskytuje (viz obr. 4). Zobrazené konkordanční řádky je možno seřadit abecedně podle slova bezprostředně předcházejícího či následujícího (tato možnost je bohužel pouze v dánštině). Vedle každého konkordančního řádku je položka „info“, která zobrazí širší kontext a další informace o textu, ze kterého je slovo vybráno (viz obr. 5).
Položka kolokace (collocates) zobrazí seznam slov, která se nejčastěji objevují v okolí hledaného slova (viz obr. 6), zatímco položka fixní fráze (fixed phrases) ukáže seznam nejběžnějších frází, ve kterých se hledané slovo užívá (viz obr. 7). Odkaz části slov (wordparts) načte seznam slov příbuzných či odvozených od hledaného slova (viz obr. 8). Položka pravopis (spelling) zobrazí slova, která se píší nebo vyslovují podobně jako hledané slovo.
Pokud je vyhledáváno více slov, lze vybrat korpus, ve kterém se budou slova hledat, lze zvolit zobrazení přesné fráze nebo pouze lemmat či syntaktické kategorie slov. V případě, že si uživatel není jist pravopisem, může použít zástupných znaků „?“ nebo „*“ pro nahrazení jednoho či více písmen.
Obr. 2: Dialog pro výběr formy hledaného slova v Korpusu 2000
Obr. 3: Zobrazení frekvence výskytu vybraného slova v Korpusu 2000 a Korpuse 90
Obr. 4: Náhled konkordančních řádků slova skal (na zdraví) v Korpusu 2000
Obr. 5: Zobrazení širšího kontextu hledaného slova a původu textu, ze kterého pasáž pochází (Korpus 2000)
Obr. 6: Náhled kolokací slova skal (na zdraví) v Korpusu 2000
Obr. 7: Seznam nejběžnějších frází, ve kterých se vyskytuje slovo skal (Korpus 2000)
Obr. 8: Seznam slov odvozených či obsahujících slovo skal (Korpus 2000)
KorpusDK
KorpusDK je pokračováním Korpusu 90 a Korpusu 2000 (oba tyto korpsuy jsou do něj včleněny). Obsahuje 56 milionů slov získaných z různých zdrojů. Texty zprostředkovávají moderní dánštinu tak, jak je používána dánsky mluvící populací. Byly vybrány tak, aby podaly co nejúplnější a nejrozmanitější obraz bohatství jazykových jevů. Určen je jak lidem, kteří se o jazyk zajímají profesionálně (novináři, učitelé a lingvisté), tak také těm, kdo jen hledají jazykově zajímavé jevy. Tvůrci korpusu (Det Danske Spreg – og Litteraturselskab) jej plánují doplnit o další texty vzniklé po roce 2002 tak, aby korpus stále sledoval nejnovější vývoj dánštiny.
Všechny texty v korpusu jsou automaticky tagovány na úrovni slov – ke každému slovu v textu je dodána informace o flexi a slovním druhu, ale i o názvu dokumentu, roku publikování, jméně autora atp.
Webová prezentace
Webová prezentace KorpusuDK (viz obr. 9) je podle mého názoru na velmi vysoké úrovni. Je jednoduchá, přehledná a přitom funkční. Stránka je informačně velmi obsažná, všechny důležité informace jsou navíc i v anglickém jazyce. Výhodou mohou být i ukázkové příklady hledání dostupné z hlavní stránky (pravý navigační sloupec). Levý navigační sloupec obsahuje volbu níže popsaných možností hledání, odkaz na základní informace o korpusu a uživatelského průvodce. Na této prezentaci je ve srovnání s prezentací Korpusu 2000 vidět technologický i designový pokrok v tvorbě webových stránek.
Obr. 9: Náhled titulní stránky KorpusuDK
Vyhledávání
Výchozí vyhledávání je nastaveno na hledání konkordancí, tzn. příkladů slov nebo frází používaných v dánštině, kdy se hledané slovo zobrazí na konkordančním řádku s minimálním kontextem (viz obr. 10). Výsledky lze třídit i redukovat a různě zarovnávat. Vyhledávat lze také kolokace nebo skupinu frází. Výběrem hledání kolokace najde slova, která se obvykle vyskytují blízko hledaného slova. Výsledek tohoto hledání je prezentován jako statistická analýza typických slov v jejich nejbližším kontextu (viz obr. 11). Zvolením hledání skupiny frází se najdou všechny významy, ve nichž se hledané slovo používá (viz obr. 12).
V rozšířeném vyhledávání lze nastavit prohledávaný korpus, hledaný slovní druh, přesnou formu slova, nebo i slov odvozených aj. Dialog „formal search“ slouží k přesnému zadání dotazu pomocí dotazovacího jazyka a položení dotazů, které nelze položit pomocí standardního vyhledávání. Webové stránky KorpusuDK obsahují podrobný návod pro toto vyhledávání.
U výsledků hledání lze libovolně navolit zobrazování doprovodných morfologických informací, informace o autorovi, roku vydání aj. se zobrazí po kliknutí na označené slov v konkordančním řádku (viz obr. 13).
Stejně jako v případě Korpusu 2000 lze u zde při vyhledávání použít zástupných znaků.
Obr. 10: Náhled konkordančních řádků slova skal v KorpusuDK
Obr. 11: Zobrazení nejbližšího kontextu slova skal v KorpsusuDK
Obr. 12: Nejčastěji používané fráze se slovem skal (KorpusDK)
Obr. 13: Náhled zobrazení širšího kontextu slova skal a informací o původním textu (KorpusDK)
Závěr
V tomto článku jsme si představili dva na sebe navazující dánské korpusy, a to Korpus 2000 a KorpusDK, který Korpus 2000 obsahuje. Jejich součástí je také Korpus 90. Vzhledem k tomu, že se jedná o projekty jedné instituce, jsou podobné možnosti vyhledávání a zobrazení výsledků, jen u KorpusuDK je mnohem příjemnější uživatelské rozhraní. Přestože dánština u nás není tak rozšířený jazyk jako např. angličtina, domnívám se, že alespoň letmé nahlédnutí do dánského jazykového korpusu může být příjemným zážitkem.
V příští části se podíváme do další skandinávské země.
Hodnocení
Korpus 2000
Webová prezentace:
Vyhledávání:
Obsah informací:
KorpusDK
Webová prezentace:
Vyhledávání:
Obsah informací:
Korpus 2000 [online]. København : Det Danske Sprog- og Litteraturselskab [cit. 2008-05-21]. Dostupné z WWW: <http://www.korpus2000.dk/korpus2000/indgang.php?lang=uk>.
KorpusDK : sproget i brug [online]. København : Det Danske Sprog- og Litteraturselskab [cit. 2008-05-21]. Dostupné z WWW: <http://ordnet.dk/korpusdk_en>.