Euskal Herriko Unibertsitateak ohar baten bidez jakinarazi duenez, Googlek 10 sari eman ditu hizkuntza prozesamenduaren alorrean. Hala, Agirrek ez ezik, saria eraman dute besteak beste Harvardeko, Berkeleyko, Edinburgoko eta Washingtoneko unibertsitateetako ikertzaileek ere. Guztira, Googlek 151 proposamen saritu ditu (informatikaren 18 esparrutako 950 izangairen artetik), 55 herrialdetako 350 unibertsitatek bidalitakoak. Eneko Agirre irakasleak 50.000 dolar jasoko ditu 'Learning Interlingual Representations of Words and Concepts' ikerketarako, hitzen eta on-line kontzeptuen hizkuntza arteko esanahia azter dezan.
Hitzen esanahia irudikatuz
Gaur egun, itzulpen automatikoen edo sareko bilaketa motorren arazoa hitzen literaltasuna da; hau da, aplikazioak hitzez hitz itzultzen edo bilatzen du hitza, esanahiari erreparatu gabe. Alabaina, Googlek saritutako lanari esker, baliteke hori nabarmen hobetzea.
Eneko Agirrek azaldu duenez, «ikerketa honen helburua hitzen esanahia irudikatzea da; hau da, jakitea bi hitzen esanahiak noiz dauden lotuta hizkuntza batean edo hizkuntza desberdinetan. Hiztegi bat eskuetan eduki eta zein hitzek duten esanahi antzekoa eta zeinek ez jakitea bezala litzateke. Kasurako, bide emango liguke jakiteko banku hitzaren esanahia aurrezki kutxa eta aulki hitzenaren antzekoa dela, zer esan nahi den, baina astelehen edo katu hitzenaren desberdina. Azken batean, guk hitz baten esanahi desberdinak irudikatzen ditugu, eta bereiz dezakegu banku hitzaren zentzu batek aurrezki kutxa-rekin eta besteak aulki-rekin duela zerikusia, baina ez alderantziz. Gainera, gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren zentzu bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste zentzua chair eta aulki hitzen antzekoa, baina bi zentzu horietako bat ere ez dela astelehen, Monday, katu edo cat hitzen antzekoa».
Prozesua gauzatzeko, irudikapen hori ikasi behar da agiri mordo batean oinarrituta, adimen artifizialaren metodo matematikoak baliatuz. Irudikapena ikasitakoan, sistemak datu basean begiratzen du ea zein beste hitzen antzekoa den guk bilatu edo itzuli nahi dugun hitza. Eta, esanahiaren arabera, hitz hori duten dokumentuak erakusten ditu, nahiz eta zehazki ez izan idatzi dugun hitz berbera.
Horrez gain, metodo hau edozein hizkuntzatan ezar daiteke. Dena dela, ikerketan hiru hizkuntza hartu dira ardatz: gaztelania, euskara eta ingelesa. «Guk darabilgun aplikazio informatikoa erabat automatikoa da, eta, horri esker, erabiltzen dugun edozein hizkuntzatarako irudikapenak ikas ditzake».
Metodo mota horiei eusten dieten metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko 'Language Analysis and Processing' masterrean ematen duen ikastaroaren oinarria.