Čas nutný k přečtení

8 minut

Tisk

a- a+

Již přečteno

Projekt Digitalkoot aneb crowdsourcing hrou

0 comments

Anglicky

English abstract:

Project Digitalkoot is a product of The National Library of Finland and Microtask. The aim is to use volunteer work to reach better quality of digitised documents, which then can be made available to general public. Digitalkoot is processing Aamulehti at the moment, the Finish 19th century newspaper.

Autoři:

Watt, Andrea

Vydání:

2012, ročník 16, číslo 3

Rubrika:

Informační zdroje, služby, aplikace

Anotace

Projekt Digitalkoot[1] je produktem Finské národní knihovny a firmy Microtask. Jeho účelem je za pomoci dobrovolníků zlepšit kvalitu digitalizovaného finského kulturního dědictví a tak jej zpřístupnit široké veřejnosti. V současnosti se opravují finské noviny Aamulehti z 19. století (1; 2).

Historické souvislosti projektu

Finská národní knihovna od roku 2010 zdigitalizovala a metodou OCR zpracovala na 4 milióny stran textů. Činnost knihovny v oblasti uchování kulturního dědictví je zakotvena ve strategických dokumentech už od roku 2006. Strategie Finské národní knihovny v letech 2006-2015, si za cíl klade právě zachování finské tištěné i elektronické produkce pro budoucí generace (3). V květnu roku 2010 knihovna vypracovala a zveřejnila svou digitalizační politiku, kde jasně vymezila kritéria výběru dokumentů pro digitalizaci (4; 5). V současné době jsou to tato kritéria:

Rozsah materiálu – upřednostňovány jsou větší celky dle typu materiálu (např. noviny), tématu, historického období a významnosti obsahu (např. od určitého autora).
Stav materiálu – dokumenty jsou vybírány dle stavu poškození nosiče, preferovány jsou samozřejmě dokumenty s nejvyšší mírou ohrožení.
Využití materiálu – cílem je zpřístupnit sbírky široké veřejnosti a zajistit jejich využití, přednost mají ty dokumenty, které jsou využívány často.
Obsah materiálu – odráží vzdělávací, kulturní, historickou, estetickou, popřípadě jinou hodnotu díla.

Do projektu Digitalkoot byly vybrány noviny publikované v letech 1771-1900, konkrétně titul Aamulehti.

K čemu je tedy potřeba dobrovolníků? Podle Národní finské knihovny je metoda optického rozpoznávání znaků (OCR) poměrně úspěšná při rozpoznávání znaků současných fontů, ale v případě starých fontů je úspěšnost nižší. Je to proto, že tvary některých písmen (např. P, V, B) se liší pouze v detailech. Ještě obtížnější je to v případě, kdy kvalita digitalizovaných dokumentů není vysoká (1). Digitalizované noviny Finské národní knihovny obsahovaly po aplikaci OCR mnoho chyb a bylo by časově a finančně velmi náročné je odstranit. V praxi by to znamenalo zaměstnat jednoho či více lidí, kteří by jednotlivé strany procházeli a špatně převedená slova ručně opravovali (6).

S řešením tohoto problému pomohla Finské národní knihovně firma Microtask, která se specializuje na provádění rutinních úkonů. Složité úlohy rozděluje na menší části či úkoly, jejichž vypracování přidělí různým lidem (v tomto projektu dobrovolníkům), a jednotlivé zpracované části následně spojí dohromady. Podobným způsobem pracuje i projekt Digitalkoot, který firma vyvinula.

Projekt byl spuštěn v únoru roku 2011 (7) a už měsíc po spuštění překročil hranici 25.000 návštěvníků (8). V červnu dosáhl hranici 50.000 (9), v říjnu vyhrál ocenění LaunchPad na konferenci MindTrek 2011 v kategorii „Press Jury choice“ (10) a v prosinci ocenění za nejlepší crowdsourcovaný projekt od DISH Digital Heritage 2011 (11).

Zpracování digitalizovaných novin

Finská národní knihovna archivuje data z procesu digitalizace ve formátu METS/ALTO. Výhodou tohoto formátu je, že uchovává nejen původní digitalizovaný obraz dokumentu, ale také text zpracovaný pomocí OCR, polohu slova v textu a míru konfidence (spolehlivosti) rozpoznání každého znaku i slova. Tyto vlastnosti dovolují jednotlivá slova ze stránky „vystřihnout“ a poslat dobrovolníkům ke zpracování, tedy opravě chyb v dokumentu.

Aby byla oprava chyb v textu pro dobrovolníky atraktivnější, rozhodl se Microtask pro vytvoření dvou online her. Jedna slouží jako filtr pro oddělení správně a špatně převedených slov či znaků. Jednotky, které OCR přepsalo správně, se dále ze hry vyřazují nebo slouží jako kontrolní slova, a ta, která jsou špatně, vytvářejí základnu slov pro druhou hru. Ta spočívá v manuálním přepisu slov a znaků.

První hra na motivy známé „Whac-A-Mole!“ (Klepni krtka) byla pojmenována „Mole Hunt“ (Hon na krtka) a slouží k ověření výstupů z OCR. Úkolem hráče je porovnat dvě slova – originál digitalizovaného dokumentu a OCR přepis. Podle shody originálu a přepisu hráč buďto kliká na zelenou „fajfku“ (slova se shodují) nebo červený křížek (slova nejsou shodná).

Slova jsou zobrazena na ceduli, kterou drží nad hlavou krtek (viz Obr. 1). Ten vždy po kliknutí zmizí a hráč pokračuje stejně u dalšího krtka. Vyhodnocení hráčova skóre přichází až na konci hry. Použita je metafora rostoucích květin – za každou správnou odpověď květina vyroste, za každou špatnou krtek sní cibulku.

Obr. 1: Hra "Mole Hunt" ukazuje účastníkovi naskenovaný výraz a po porovnání s databází odpovědí jiných účastníků hodnotí jeho odpověď (zdroj: www.digitalkoot.fi)

Druhá hra, „Mole Bridge“, (Krtkův most) je složitější. Hráč přepisuje slova z digitalizovaných dokumentů, která mu systém nabízí, a ta se mění ve stavební bloky, ze kterých se krtkům staví most přes propast. Pro zhodnocení správnosti přepisu potřebuje systém čas většinou v řádu několika vteřin či déle. Z toho důvodu se stavební bloky před ověřením ukládají do konstrukce jako dřevěné, a až po ověření se stávají kovovými. Pokud hráč slovo přepíše špatně, blok exploduje a strhne s sebou i bloky okolní. Cílem je postavit dostatečně dlouhý most, aby mohli krtci bezpečně přejít (viz Obr. 2).

Funkční principy hry

Jak systém pozná, že hráč potvrdil či opravil slovo správně? Když to přece ví, hráče vlastně nepotřebuje, řekli bychom. Nikoliv, ba právě naopak: aby hra mohla slova spolehlivě a rychle ověřovat, je zapotřebí mnoho hráčů, kteří navíc hrají současně. Základním principem hry je, že se spoléhá na tzv. „moudrost davů“, crowdsourcing.

V ideálním případě hru vždy hraje velký počet hráčů současně – pak systém funguje bezvadně. Čím více hráčů se shodne na potvrzení nebo určitém přepisu slova, tím je větší pravděpodobnost, že je slovo správně. Na tomto principu systém provádí vyhodnocení každého kola hry. Není však vždy reálné mít mnoho současně hrajících hráčů, a proto jsou hráčům někdy zobrazována slova, která už systém dříve ověřil, tzv. slova kontrolní. S jejich pomocí systém získává čas k ověření nových slov. Četnost výskytu kontrolních slov závisí na množství aktivních hráčů. Nevýhodou takového přístupu je, že systém od hráčů nezískává nová slova, protože jej zásobuje pouze slovy, která už zná (12).

Zobrazování kontrolních slov má i další význam. Když hráč poprvé vstoupí do hry, systém nedokáže předvídat jeho schopnosti ani míru snahy hrát „fair play“. Pokud by hráč schválně přepisoval každé zobrazené slovo špatně, poškodilo by to celý systém. Protože ten spoléhá na „moudrost davu“, musí odlišit záškodníky od poctivých hráčů. Systém tedy každému novému hráči zobrazuje pouze slova, která jsou již ověřená a postupně jejich množství snižuje podle toho, jak si hráč vede. Nicméně počet kontrolních slov u žádného hráče nikdy neklesne na nulu, tak aby systém mohl hráče vždy monitorovat. Hráči o tomto mechanismu přirozeně neví a nemohou odhadnout, kdy je možné podvádět a kdy ne.

Příkladem efektivity verifikace a monitorování hráčů je případ, kdy jeden hráč po dobu 1,5 hodiny neúnavně posílal špatné odpovědi, a celkem tak v systému vykonal 5692 úkolů. Z celého množství úkolů však systém uznal jen 4 odpovědi (9; 12).

Obr. 2: Ve hře"Mole Bridge" se úspěšnost hráče vizualizuje pomocí dřevěných a kovových částí mostu, po kterých může krtek přejít do bezpečí (zdroj: www.digitalkoot.fi)

Porovnání metod crowdsourcingu a OCR

Tvůrci projektu Digitalkoot mimo jiné porovnávali výsledky OCR s výsledky hráčů v Digitalkoot. Pro srovnání náhodně vybrali dva digitalizované články. Oba zpracovali jednou pomocí OCR a podruhé v Digitalkoot. Po aplikaci OCR i zpracování v Digitalkoot manuálně spočítali chyby, které se v textech vyskytly.

V prvním článku o rozsahu 1467 slov spočítali 228 špatně převedených slov pomocí OCR a pouze 14 pomocí Digitalkoot. Ve druhém článku, který čítal 516 slov, bylo po OCR spočítáno 118 nepřesných slov a pouze 1 slovo v Digitalkoot (12).

Budoucnost projektu Digitalkoot

Hry momentálně nabízejí pouze klikání nebo přepis slov. Do budoucna by se projekt měl rozšířit o pomoc dobrovolníků při tagování obrázků a strukturování dokumentů. S pomocí dat, která se nashromáždila, Microtask plánuje minimalizovat redundanci kontrolních slov, s tím, že přesnost systému zůstane na stejné úrovni. Dále by rád zavedl programovatelné klávesy (tzv. soft keys) pro klávesnice bez znaků „å, ä, ö, ü“ (9).

Na závěr je nutno zmínit, že Digitalkoot není jediným ani nejnovějším projektem, který využívá crowdsourcing pro vylepšení kvality digitalizovaných dokumentů. Jedním z takových je například reCAPTCHA vyvinutý na Fakultě počítačové vědy v Carnegie Mellon University, jako další příklad lze jmenovat australský projekt Trove. Digitalkoot je však jedinečný v tom, že na rozdíl od výše zmíněných využívá online hry.

A jak uvádí na svém webu Microtask: „Národní finská knihovna může se svými obrovskými archivy zaručit dobrovolníkům milióny dobrých výmluv, proč hrát počítačové hry v práci. Může si vážně někdo stěžovat, když to, co opravdu děláte, je záchrana kulturního dědictví jedné země?“ (6).

Bibliografie:

MICROTASK. Digitalkoot [online]. [8.2.2011] [cit. 2012-01-24]. Dostupné z: http://www.digitalkoot.fi/en/splash
National Library of Finland launched the e-programme Digitalkoot with Microtask. THE NATIONAL LIBRARY OF FINLAND. The National Library of Finland [online]. [cit. 2012-01-24]. Dostupné z: http://www.nationallibrary.fi/infoe/uutiset/1297236955390.html
The strategy of the National Library of Finland 2006–2015. THE NATIONAL LIBRARY OF FINLAND. The National Library of Finland [online]. [2006] [cit. 2012-03-01]. Dostupné z: http://www.nationallibrary.fi/infoe/organization/nationallibrarystrategy_20062015_summary.html
ISON, Tiina. Introduction to the Digitisation Policy of the National Library of Finland. The National Library of Finland [online]. [2010] [cit. 2012-03-01]. Dostupné z: http://www.nationallibrary.fi/libraries/dimiko/digitisationpolicy.html
THE NATIONAL LIBRARY OF FINLAND. The Digitisation Policy of the National Library of Finland [online]. [2010] [cit. 2012-03-01]. Dostupné z: http://www.kansalliskirjasto.fi/attachments/5v5daJ8e3/5uhdIBk6X/Files/CurrentFile/NLF_Digitisation_Policy.pdf
DE BENETTI, Tommaso. Digitalkoot: crowdsourcing Finnish Cultural Heritage. MICROTASK. Microtask [online]. February 8th, 2011 [cit. 2012-01-24]. Dostupné z: http://blog.microtask.com/2011/02/digitalkoot-crowdsourcing-finnish-cultural-heritage/
Our work so far. MICROTASK. Microtask [online]. [cit. 2012-01-24]. Dostupné z: http://www.microtask.com/cases
Digitalkoot e-programme breaks 25,000 participant mark. THE NATIONAL LIBRARY OF FINLAND. The National Library of Finland [online]. 17.3.2011 [cit. 2012-01-24]. Dostupné z: http://www.nationallibrary.fi/infoe/uutiset/1300347961536.html
DE BENETTI, Tommaso. The secrets of Digitalkoot: Lessons learned crowdsourcing data entry to 50,000 people (for free). MICROTASK. Microtask [online]. June 16th, 2011 [cit. 2012-01-24]. Dostupné z: http://blog.microtask.com/2011/06/the-secrets-of-digitalkoot-lessons-learned-crowdsourcing-data-entry-to-50000-people-for-free/
Transfluent wins MindTrek LaunchPad 2011. MindTrek 2011 [online]. [2011] [cit. 2012-01-24]. Dostupné z: http://www.mindtrek.org/2011/competition/transfluent-wins-mindtrek-launchpad-2011
Nominee: Digitalkoot. THE NETHERLANDS INSTITUTE FOR HERITAGE. The Conference about Digital Strategies for Heritage [online]. 28.11.2011 [cit. 2012-01-24]. Dostupné z: http://www.dish2011.nl/news/nominee-digitalkoot
CHRONS, Otto a Sami SUNDELL. Digitalkoot: Making Old Archives Accessible Using Crowdsourcing. In: AAAI Workshops [online]. aug. 2011 [cit. 2012-01-24]. Dostupné z: http://www.aaai.org/ocs/index.php/WS/AAAIW11/paper/view/3813

Poznámka:

Do angličtiny překládáno jako „Digital Volunteers“. Ve finštině je název projektu spojen ze dvou slov – z angličtiny převzatého „digi“ nebo „digital“ a slova „talkoot“. Právě slovo „talkoot“ má ve finštině specifický význam. Více na Wikipedia.

Klíčová slova:

digitalizace

skenování

zpracování textu

Hodnocení:

Projekt Digitalkoot aneb crowdsourcing hrou

Projekt Digitalkoot aneb crowdsourcing hrou

Anotace

Historické souvislosti projektu

Zpracování digitalizovaných novin

Funkční principy hry

Porovnání metod crowdsourcingu a OCR

Budoucnost projektu Digitalkoot

Ikaros.cz

Newsletter Ikaros.cz