Boise, Idaho, AEB. Igor Leturia, Elhuyarrek sustatutako Orai NLP Teknologiak zentroko hizketa-teknologien arduraduna, Boisen eta Renon aritu da irailaren 13tik 25era euskararekin lotutako hizkuntza-teknologien egoera azaltzen, Etxepare Euskal Institutuak Boise State Universityn (BSU) sustatzen duen Eloise Garmendia Bieter Katedrak gonbidatuta. Egonaldian BSUk eta Renoko University of Nevadako (UNR) William A. Douglass Euskal Ikasketen Zentroak lankidetzan antolatutako World Languages International Conference on Cultural Studies kongresuko hizlari nagusia izan da. Horrez gain, eskolak eta hitzaldiak eman ditu BSUko Munduko Hizkuntzen Sailean eta Informatika Fakultatean, Boiseko Euskal Museo eta Kultura Institutuan eta UNRko Euskal Ikasketen Zentroan.
Gogora dezagun Igor Leturia Azkarate informatikan doktorea dela eta software garatzaile eta ikertzaile ari dela lanean Euskal Herrian Orai eta Elhuyarren. Azken urteotan euskararentzat hizkuntza eta hizketa teknologien garapenean egin du lan, bi erakunde horiek lankide izan dituzten Elia, Aditu eta TTS neuronal zerbitzuak bezalako teknologiak sortzen. Boisen, adimen artifiziala baliatuz eta hizkuntza eta itzulpengintza alorreko goi-mailako ikerketa eta soluzio teknologiko adimenduak jorratuz aritu da bertako ikasle eta euskal komunitateko kideekin, hainbat eskola eta hitzaldi ematen. Horrretaz guztiaz dihardu Etxepare Euskal Institutua medio eskaini dezakegun elkarrizketa honetan.
Zer dira hizkuntza- eta hizketa- teknologiak?
Hizkuntza- eta hizketa-teknologiak Adimen Artifizialaren arlo bat dira, preseski hizkuntza kontuez arduratzen dena. NLP edo Lengoaia Naturalaren Prozesamendua izenez ere ezagutzan da. Bere barne hartzen ditu itzulpen automatikoa, hizketaren ezagutza, hizketaren sintesia, testuen sailkapena, laguntzaile birtualak, testuen laburpena, galderen erantzute automatikoa, testuen sorkuntza... eta horien moduko beste hainbat teknologia.
Zergatik dira garrantzitsuak?
Gaur egun, eta gero eta gehiago, makina gero eta aurreratuagoek inguratzen gaituzte, gero eta gehiago erabiltzen ditugu: ordenagailuak, telefono mugikorrak, robotak, laguntzaile birtualak, etxetresna adimendunak... Hauekiko interakzioa botoi, menu eta abarren bidez egin beharrean guretzat naturalena den moduan, hau da, hizkuntza eta hizketaren bidez egitea ahalbidetzen dute teknologiok. Horrez gain, eguneroko lanak errazteko edo azkartzeko edo bestela egin ezingo genituzkeen gauzak egitea ahalbidetu dezakete: testuak sortzea, ulertzea, itzultzea, sailkatzea edo laburtzea, ikus-entzunezkoak azpititulatzea, bikoiztea... Eta irisgarritasunerako ere oso baliagarriak dira.
Zer nolako ibilbidea izan dute teknologia hauen garapenaren eta erabileraren estrategia?
Teknologia hauen garapenean baliatutako estrategiak normalean garaian garaiko teknologien ahalmenak zehaztu edo mugatu dituzte.
Ordenagailuen hasieratik mende honen hasieraraino batez ere erregeletan oinarritutako metodoak erabili izan dira. Hiztegiak, arauak eta abarrak zerrendetan eta programazio-lengoaien bidez adierazi behar ziren. Informatikaz gain, hizkuntzalari-lan handia eskatzen zuen. Baina egin zitezkeen atazak mugatuta zeuden: etiketatzea egin zitekeen, zuzenketa ortografikoa... baina itzulpen automatikoa eta horrelako gauza konplexuagoak ez.
Geroago, ikasketa automatikoko metodoak etorri ziren, datu multzo handietatik ikasten dutenak. Eta azken bospasei urteotan sare neuronal sakonen edo ikasketa sakonaren teknikak dira erabiltzen direnak edozein atazatarako. Hauek ikasketa sakonaren kasu partikular bat dira, datu multzo handietatik ikasten dute, baina sare neuronal sakonak baliatzen dira, nolabait giza burmuinaren funtzionamendua imitatu nahi duten egitura konputazionalak. Sare konplexu hauek, ordenagailuen garapenak eta ikasteko datu kopurua asko handitzeak ekarri dute gaur egun itzulpen automatikoa, hizketaren ezagutza, testuen sorkuntza edo hizketaren sorkuntza bezalako ataza konplexuak ere oso kalitate onarekin egin ahal izatea.
Zer abantaila ditu euskarak, hizkuntza gutxitua den heinean, horrelako teknologiak baliatzeko aukera izanda?
Euskara baliabide urriko hizkuntza da, baina ezaugarri hori ez da bai/ez motako ezaugarri bitarra. Zorionez, azken urteotan euskarak izan duen bilakaera dela-eta, hizkuntza- eta hizketa-teknologiek ikasteko behar duten moduko datu asko sortu dituzte erakunde publikoek, hezkuntza eragileek, komunikabideek, kultura agenteek... Hala, testu digitalizatuen corpusa handi samarra badugu, itzulpenena ere bai, audio transkripzioak ere bai... Eta horiei esker, itzulpen automatiko, transkripzio automatiko, hizketa sorkuntza eta beste teknologia aurreratu kalitatezkoak garatu ahal izan ditugu. Horren emaitzak begi-bistakoak dira, gizarteak gero eta gehiago erabiltzen ditu tresna horiek, eta hizkuntzaren etorkizuna bermatzeko faktore garrantzitsua izango dira etorkizunean ere.
Zeintzuk izan Oraik eta Elhuyarrek garatutako hizkuntza- eta hizketa- teknologien mugarriak? (Elia, Aditu, beste batzuk…).
Baliabide, teknologia eta tresna garrantzitsu asko garatu ditugu azken 20 urteotan: corpusak, bilatzaileak, IXArekin batera garatutako edo merkaturatutako Matxin itzultzailea eta Xuxen zuzentzailea... Baina beharbada azken urteotan sare neuronal sakonen teknologia baliatuz garatu eta gizartearen eskura jarri ditugun hiru tresna edo zerbitzu dira aipagarrienak:
- 6 hizkuntzen artean (euskara, gaztelania, frantsesa, ingelesa, katalana eta galegoa) itzultzen duen Elia itzulpen automatikoko zerbitzua. Dokumentu osoak ere itzul ditzake formatua mantenduta, APIa ere badu webguneetan eta bestelakoetan integratzeko, eta funtzionalitate aurreratu gehiago.
- Euskaraz, gaztelaniaz edota elebitan dauden audio edo bideoak transkribatu edo azpititulatzen dituen Aditu zerbitzua. Eskuzko zuzenketak egiteko interfazea du, Eliaren 6 hizkuntzetako edozeinetara itzultzea ere ahalbidetzen, APIa ere badu, eta zuzenan ere egin dezake.
- TTS neuronala: Hizketa-sorkuntza neuronaleko zerbitzua. Sei hizkuntzatan (euskara, gaztelania, frantsesa, ingelesa, katalana eta galegoa) eta bakoitzean hainbat ahotsekin erabili daiteke, eta grabaketa gutxi batzuekin norberaren ahots sintetiko pertsonalizatua sor daiteke erabilera esklusiborako. APIA ere badu webguneetan integratzeko.
Zer erronka dituzue alor honetan etorkizunari begira?
Azken urtean-edo aldaketa handi bat eman da Adimen Artifizialaren munduan, denok entzun ditugu AA sortzailea edo ChatGPT moduko terminoak, eta ikusi ditugu edozein galderari erantzuten dioten laguntzaileak edo bideoak bikoizten dituzten app-ak. Hauek guztiak hizkuntza- eta hizketa-teknologiak dira, paradigma berri baten oinarrituta daude (lengoaia-eredu handiak). Sare erraldoiak dira, datu kopuru handiekin entrenatuta daude eta hizkuntza askotan funtzionatzen dute. Horietako batzuk euskaraz ere badaude (nahiz eta ez hain ongi ibili). Orain erronka da paradigma horri jarraituz gai izatea gauza berri horiek egingo dituzten teknologia propioak garatzea, euskaraz ere ibiliko direnak edo hobeto ibiliko direnak, burujabetza teknologikoa eta pribatutasuna bermatuz modu jasangarri baten.
Zer nolako esperientzia izan duzu Eloise Garmendia Bieter katedran?
Esperientzia oso ona izan da Eloise Garmendia katedran irakasle gonbidatua izatea. Euskal Ikasketen departamenduan klaseak eman ditut, Informatika departamentuan ere bai, itzulpenen inguruko kongresuko hitzaldi nagusia, Euskal Etxean hitzaldia hango euskal komunitateari... Horrelako egonaldi bat eta oso publiko ezberdinentzat klaseak eta hitzaldiak prestatu beharra erronka bat da akademikoki eta profesionalki, ideiak argitu eta antolatzea eta dibulgaziorako eta hezkuntzarako prestatzea eskatzen duelako, baina oso erronka polita da.
Bestalde, Boiseko euskal komunitatea bertatik bertara ezagutzeko aukera eman dit, eta benetan esperientzia bikaina izan da.
Zer nolako harrera izan du zure ikerketa gaiak eta zure lan ildoak? Zer nabarmenduko zenuke?
Nik uste dut harrera ona izan duela. Euskal ikasketetakoek eta euskal komunitateak ikusi dute teknologiak euskaraz ere egiten duela eta beraiek ere balia dezaketela, izan euskara ikasteko, izan makinekin elkarreragiteko edo izan beraien ondarearen zabalkunderako. Horren adibide da Boiseko Euskal Museoak, Boiseko Unibertsitateko euskal ikasketetako Nere Leteren laguntzarekin, Aditu baliatu duela euskal diasporari buruzko dokumental sorta bat azpititulatu eta itzultzeko.
Bestalde, informatika sailean emandako klaseetako ikasleek egiten dute lan hizkuntza- eta hizketa-teknologiekin, baina beti ingelesarekin, eta hori oso erraza da, ingelesarentzat baliabide ugari baitago. Eta uste dut lortu dudala ikusaraztea hizkuntza guztiek ez dutela zorte hori, hizkuntza askok baliabide askoz gutxiagorekin moldatu behar dutela, eta egoera horietan baliatu daitezkeen estrategiak ere azaldu ditut.