Névmásblog

Kezdőlap » Névmások és a számítógép » Nyelvtechnológiai játék a névmásokkal

Nyelvtechnológiai játék a névmásokkal

A Phrase Detectives és ami mögötte van.

A bloghoz írt Beköszöntőben a névmásokat a mesebeli sóhoz hasonlítottam. Többnyire nem sok figyelmet fordítunk rájuk, de ha nem lennének, akkor elég nehezen tudnánk összefüggő szövegeket létrehozni. De vannak, és így többek közt éppen az ő segítségükkel tudjuk azt nyomon követni egy beszélgetésben, hogy éppen miről van szó. Ami viszont az embereknek viszonylag könnyen megy, az a számítógépek számára sokkal nehezebb feladat. A szövegek  valamilyen szintű megértése a számítógépes nyelvfeldolgozásban állandó kihívást jelent, és ennek a nagyobb feladatnak egy részfeladata az, hogy a gép megpróbálja értelmezni, melyik kifejezés melyik másikra utal vissza valamilyen módon egy szövegben (ezeket a visszautalásokat hívjuk anaforikus utalásoknak).

Ebben a cikkben egy olyan játékra szeretném felhívni az olvasók figyelmét, melynek révén bárki részesévé válhat a nyelvtechnológia további fejlődésének. Semmilyen nyelvészeti vagy informatikai tudás nem kell hozzá, és még pénzt is lehet vele keresni, vagy csak egyszerűen csiszolgathatjuk az angoltudásunkat. A Phrase Detectives (kb.: szószerkezet-nyomozók) nevű játékban szövegeket kell elolvasni és kikutatni a bennük található mindenféle visszautalást. Nézzük akkor sorjában, miről is szól ez az egész.

Phrase Detectives - The AnaWiki annotation game

 AnaWiki & Jon Chamberlain © 2008-10

Magát a feladatot egy a fejlesztők által is idézett példával szeretném illusztrálni (Chamberlain és mtsai 2009). Biztosan sokan emlékeznek az alábbi, döglött papagájos jelenetre a Monty Python’s Flying Circus című sorozatból. A jelenetben három szereplő van: az eladó, a (nem-)vevő és a döglött papagáj. A lenti idézetben egyedül a döglött papagájról van szó (a Galla Miklós-féle magyar fordítás nem teljesen követi az eredeti angol szöveget, de a hangulatát jól adja vissza):

He’s passed on! This parrot is no more! He has ceased to be!
He’s expired and gone to meet his maker! He’s a stiff!
Bereft of life, he rests in peace!
If you hadn’t nailed him to the perch he’d be pushing up the daisies!
His meatbolic processes are now history!
… This is an ex-parrot!
(The Pet Shop. Monty Python)

Elhunyt! Megszűnt létezni!
Kimúlt, és megtért a teremtőhöz! Ez egy néhai papagáj! Állati tetem!
Az élettől megfosztva békében pihen!
Alulról szagolja az ibolyát! Földobta a talpát! Beadta a kulcsot! A fűbe harapott!
Ez egy expapagáj!
(A Papagájjelenet. Galla Miklós fordítása.)

Aki nézi és hallgatja ezt a jelenetet, annak teljesen egyértelmű, hogy a döglött papagájról van szó végig. De honnan tudja ezt egy gép, és egyáltalán mitől nehéz ez a feladat? Vegyük először a névmásokat az angol szövegben. A következők utalnak a papagájra: he, this (parrot), him, his. A második kivételével mind hímnemű névmások, és már önmagában az sem egy triviális feladat egy gép számára, hogy most szokás szerint nem egy emberre, hanem egy papagájra utalnak. Ezen felül, pusztán nyelvtani szempontból bármelyik utalhatna bárki másra is, semmi sem kötelezi a névmásokat arra, hogy csak a papagájra utalhatnak. Azt csak mi tudjuk, hogy ebben a jelenetben végig róla van szó. De olyan kifejezés is van (bereft of life ‘az élettől megfosztva), ahol semmilyen névmási alany nincs kitéve, mégis valahogy ki kell találni, hogy itt is a papagájról beszélünk. A magyar szöveg pedig ettől is nagyobb kihívást jelentene, mivel a magyar nyelv névmásejtéses tulajdonsága miatt az egészen szövegben egyetlen névmás szerepel (kétszer): az ez mutató névmás.

Most képzeljük azt el, hogy a szövegben nem csak a papagájra utalunk, hanem esetleg egy korábbi tulajdonosára meg egyéb közvetlenül jelen nem lévő szereplőkre. És próbáljuk azt is elképzelni, hogy ezeknek a visszautalgatásoknak a feltérképezésére próbálunk írni egy programot – nem könnyű feladat. Éppen ezek miatt a nehézségek miatt a nyelvtechnológiában is régóta próbálkoznak azzal, hogy olyan algoritmusokat írjanak, amelyek nagy terjedelmű szövegeken dolgozva maguk képesek valahogy megtanulni, hogyan is működnek az emberi nyelvben ezek a fajta visszautalások (ritkábban előreutalások). Az algoritmusok betanításához és megbízhatóságuk ellenőrzéséhez szükség van olyan szövegekre, amelyekben előzetesen emberek jelölték be valamilyen módon ezeket a visszautalásokat, és aztán ezeket az ún. annotációkat eltárolták egy adatbázisban. A Phrase Detectives játék célja az, hogy ezeket az annotációkat maguk a játékosok hozzák létre.

A feladatok tulajdonképpen nagyon egyszerűek. Vagy azt kell bejelölgetni a játékban megadott módokon, hogy melyik kifejezés melyik másikra utal vissza (vagy általában, hogy ugyanarra utal-e két kifejezés); vagy pedig a mások által már felvitt annotációkat kell értékelni, hogy jók-e vagy sem. Az értékelés révén egy megbízható adatbázist kapnak a játék fejlesztői, hiszen ugyanazt az adatot sok játékos ellenőrzi le. Ezek egy részét a fejlesztők is megnézték, és nagyon megbízhatónak találták őket.

A játékosokat több minden is motiválja a részvételre. Például érdekesek a szövegek is, a Monty Pythonon kívül Grimm meséi és Sherlock Holmes történetei is szerepelnek a játékban. Emellett az emberek általában szeretnek játszani, és dolgozni is szívesebben dolgoznak ha ugyanazt munka helyett játéknak hívjuk. Végül pedig a játékban a legtöbb pontot összegyűjtők havonta pénzjutalmat is kapnak. A legmagasabb havi jutalom most például 50 angol font.

A fejlesztők által közölt adat szerint a játék első két évében (2008-2010) a játékosok összesen 2700 órányi munkát fektettek a játékba. Ez pontosan 337 és fél nyolcórás munkanap, ebédelés és kávézás nélkül. Ez jól mutatja, miért éri meg ezt az egész játékot fenntartani, hiszen sokkal többe kerülne, ha ugyanezt a munkát fizetett alkalmazottakkal végeztetnék el. Akiket ráadásul sokkal nehezebb is összeszedni megfelelő számban, mint azokat a játékosokat, akik maguktól csatlakoznak a kezdeményezéshez. Ezt a fajta adatgyűjtési megoldást nevezik az angolban game with purpose megközelítésnek (“játék egy jó cél érdekében”), és sikerrel alkalmazták már más feladatokban is.

Akinek felkeltette mindez az érdeklődését, az kipróbálhatja a játékot az AnaWiki Projekt weboldalán, vagy a Facebookon is. A játék jelenleg angol, német, francia, spanyol és olasz nyelven érhető el. A választott szövegek nyelvét jól kell ismerniük a játékosoknak, de nem kell anyanyelvi beszélőnek lenni. Jó játékot mindenkinek!

Rákosi György

Felhasznált irodalom

Chamberlain, Jon; Massimo Poesio & Udo Kruschwitz. 2009. A new life for a dead parrot: Incentive structures in the Phrase Detectives gameProc. Webcentives09. Madrid.

A Phrase Detectives a weben

Az AnaWiki Projekt weboldala

A Phrase Detectives játék 

A Phrase Detectives játék a Facebookon

Reklámok

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés / Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés / Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés / Módosítás )

Google+ kép

Hozzászólhat a Google+ felhasználói fiók használatával. Kilépés / Módosítás )

Kapcsolódás: %s

Ha szeretnél emailben értesítéseket kapni az új cikkekről, add meg az emailcímed, és kövesd a blogot.

Csatlakozz a 591 követőhöz

Follow Névmásblog on WordPress.com
%d blogger ezt kedveli: