Névmásblog

Kezdőoldal » Névmások és a számítógép

Category Archives: Névmások és a számítógép

Névmáshasználat az angol nyelvű Facebookon

Mutasd a névmásaid, megmondom ki vagy!

Két érdekes cikk jelent meg szeptemberben a Language Logon az angol nyelvű facebookozók névmáshasználati szokásairól. Mind a két cikket Mark Liberman írta, és van néhány meglepő adatsor bennük arról, hogy milyen összefüggések mutathatók ki a posztolók életkora és neme, valamint az általuk használt névmások között. Mindez pedig a magyar olvasók számára is érdekes lehet, úgyhogy röviden összefoglalom, hogy mit találtam a két cikkben. Lássuk, mit árul el a névmáshasználatunk arról, hogy kik vagyunk.

Mark Liberman egy olyan adatbázisban keresett adatokat, amely 75000 Facebook felhasználó angol nyelvű bejegyzéseit tartalmazza. (Az érintett facebookozók önként csatlakoztak ahhoz a vizsgálathoz, melynek keretében létrejött ez az adatbázis.) Az adathalmaz nagyságát jól jellemzi, hogy például az I ‘én’ személyes névmás 7,5 millió példányban fordul elő benne. A Facebook-adatokon alapuló vizsgálatokban többek közt az a jó, hogy minden felhasználónak rendelkezésre állnak olyan személyes adatai, mint a nem vagy az életkor. Az angol nyelvű adatokban pedig az az érdekes, hogy, szemben a magyarral, van nyelvtani nem. Tehát például az ő névmásnak az angolban van egy hímnemű (he) és egy nőnemű (she) megfelelője is. Az utóbbit használjuk akkor, ha nőkre utalunk, az előbbit pedig akkor, ha férfiakra. Azt gondolhatnánk, hogy a beszélők saját korukra és nemükre való tekintet nélkül nagyjából ugyanolyan gyakorisággal használják ezeket a névmásokat. Ez azonban nem így van.

(tovább…)

Nyelvtechnológiai játék a névmásokkal

A Phrase Detectives és ami mögötte van.

A bloghoz írt Beköszöntőben a névmásokat a mesebeli sóhoz hasonlítottam. Többnyire nem sok figyelmet fordítunk rájuk, de ha nem lennének, akkor elég nehezen tudnánk összefüggő szövegeket létrehozni. De vannak, és így többek közt éppen az ő segítségükkel tudjuk azt nyomon követni egy beszélgetésben, hogy éppen miről van szó. Ami viszont az embereknek viszonylag könnyen megy, az a számítógépek számára sokkal nehezebb feladat. A szövegek  valamilyen szintű megértése a számítógépes nyelvfeldolgozásban állandó kihívást jelent, és ennek a nagyobb feladatnak egy részfeladata az, hogy a gép megpróbálja értelmezni, melyik kifejezés melyik másikra utal vissza valamilyen módon egy szövegben (ezeket a visszautalásokat hívjuk anaforikus utalásoknak).

Ebben a cikkben egy olyan játékra szeretném felhívni az olvasók figyelmét, melynek révén bárki részesévé válhat a nyelvtechnológia további fejlődésének. Semmilyen nyelvészeti vagy informatikai tudás nem kell hozzá, és még pénzt is lehet vele keresni, vagy csak egyszerűen csiszolgathatjuk az angoltudásunkat. A Phrase Detectives (kb.: szószerkezet-nyomozók) nevű játékban szövegeket kell elolvasni és kikutatni a bennük található mindenféle visszautalást. Nézzük akkor sorjában, miről is szól ez az egész.

Phrase Detectives - The AnaWiki annotation game

 AnaWiki & Jon Chamberlain © 2008-10

(tovább…)