"Kostuak jaisten saiatu behar dugu, itzultzaileentzat erremintak sortuz"

  • EHUko Donostiako campusean Sistemen Ingeniaritza eta Automatika Sailean irakasle da. Leioan berriz, Elektrika eta Elektronika Sailean ikerlari. Harrituta dago kazetariak bere tesiari buruz galdetu diolako. Lehen ere hurbildu zaizkio hedabideetatik eta interes hori arraroa egin zaio.
Alicia Perez
"Hogei urte pasa dira eta ez dugu lortu hizkuntza batetik bestera natural eta zuzen itzultzea. Apurka ari gara"Dani Blanco
Inoiz baino beharrezkoagoak dira eskuin muturraren gezurrei
aurre egingo dieten hedabide independenteak
Esan diogu, bere alorra ulertzeko zaila den arren, itzulpengintza automatikoa badela gai interesgarria, hizkuntza gutxituentzat adibidez. Speech and text translation involving basque language: application of stochastic finite-state transducers izeneko tesia egin zuen, zer ikertu duen galdetu diogu: “Makinak itzulpenak egiteko metodo desberdinak ditu. Nik metodo estatistikoa darabilt. Euskaran zentratu naiz, baina berez, estatistikak edozein hizkuntzatik edozein hizkuntzara egitea ahalbidetzen du. Metodo horrek hitzak etiketak edo zenbakiak bailiran tratatzen ditu, lehenengo hitza a hizkuntzan eta bigarren hitza b hizkuntzan. Dena dela, okerrago edo hobeto ibiliko da sistema, hizkuntzek euren artean duten hurbiltasunaren edo urruntasunaren arabera. Estatistikak, euskara eta gaztelaniaren arteko itzulpenetan, azkenean txapuza egiten du, oso-oso hizkuntza desberdinak baitira. Zerbait egiten du, baina gutxi, oraindik bere ahalmena nahiko murritza da.


Estatistikarenaz gain, badira beste metodo batzuk itzulpengintzan, eta nahastu egin ohi dira.


Bai, hori da gaur egungo joera.

Baina estatistika aukeratu duzu.


Bai. Ametzagaiña Taldea itzulpen memoriekin ari zen eta estatistika sartu nahi zuen proiektuan. Eurek lagundu ziguten itzulpen unitateak –izen sintagmak, adibidez– identifikatzen.

Beraz, alde linguistikoa eta estatistikoa nahastu dituzu.


Itzulpen unitateak identifikatu nahi genituen, baina metodo linguistikoen bidez. Metodo estatistikoen bidez esaldiko subjektua, aditza eta bestelako elementuak identifika daitezke. Alabaina, metodo estatistikoek bere logika erabiliz egiten dute zatiketa hori: iruditzen zait honaino dela partiketa. Ondo, baina guk partiketa metodo linguistikoak erabiliz egitea nahi genuen, alegia, unitateak segmentatzea metodo linguistikoen bidez.

Eta horretarako Euskalmeteko eguraldi iragarpenen lagina erabili zenuten.


“Zerua oso hodeitsu egongo da arratsalde partean kostaldean eta mendietan aldiz...”. Horrelako laginak hartu genituen. Alor mugatu baterako aplikazioa da nik landutakoa, eta helburua da aplikazio eremua apurka-apurka handitzea. Baina, hau hasiera baino ez da.

Hori galdetu nahi nizun. Batzuetan badirudi itzulpen automatikoa asmatuta dagoela, hedabideek kontatzeko duten moduagatik, adibidez.


... agerian dago ezetz, bestela denok erabiliko genuke mugikorrean! Ez, ez dago asmatuta.

Nola transmititzen duzue egiten duzuen lana, noraino iritsi zareten azaltzea, adibidez?


Aspalditik ari gara itzulpengintza automatiko estatistikoan. 90eko hamarkadan AEBetan IBMko taldea sortu zen, eta horrek eman zien buelta aurreko metodoei. Hogei urte pasa dira eta ez dugu lortu hizkuntza batetik bestera natural eta zuzen itzultzea. Apurka ari gara uztartzen metodo linguistikoak eta estatistikoak.


Euskararekin bezala beste hizkuntzekin ere berdin aritzen dira lanean?


Azken finean, adimen artifizialeko ezagumenak aplikatzen dira, metodo orokorrak dira aplikatzen direnak problema jakin baterako. Nahiko gatza da gure problema zeren ez da matematika, hizkuntza da, oso aberatsa.


Buelta eman diozu, hizkuntza arazoa dela esan beharrean aberatsa dela diozu.


Erronka da, ea zer ekarri ahal diodan hizkuntzalaritzari nire metodoen bidez.


Itzulpen “perfektua” noiz izango dugun imajinatzen al duzu?


Ez nuke jakingo aurresaten, adibidez, hainbeste urtetan maila ertaineko itzultzailea izango dugu... Google-ek badauka berea, nahiko ona da, baina alor guztietarako aplikagarria al da? Oraindik ez. Hala ere, zientziaren bilakaera oso-oso azkarra da. Garai batean, bospasei urtean inork ez zizun tesia zapaltzen, gaur egun zure gaia urte pare batean zaharkituta geratu da, jende piloa ari da gai horretan.

Jendeak espero du itzultzaile perfektua aurkitzea Interneten, adibidez.


Bai, eta gero bazoaz probatzera eta txarto egiten du, ezta? Biltzarretan-eta aipatzen dena da: zuk zer nahiago duzu, Taiwanetik erositako garbigailuaren eskuliburua taiwanera perfektuan egotea edo euskara xumean? Nik nahiago dut ezagutzen dudan hizkuntzan egotea, akatsen bat badago ere nahiago dut ulertzea, beste hizkuntza batean perfektua izatea baino. Agerian dago itzultzaileen beharra oso handia dela. Kostuak jaisten saiatu behar dugu, itzultzaileei lagunduko dien erremintak sortuz.


Lagungarri beraz.


Euskalmeteko lagina, euskaraz eta gaztelaniaz geneukan, baina publikatzeko ingelesez behar genuen zerbait. Kontratatu genuen itzultzaileak 14.000 esaldi itzultzeko milioi bat pezeta kobratu zigun, ez da asko. Gure sistemak, entrenatuta zegoenean, 1.500 esaldi zuzentzeko segundo batzuk behar izan zituen. Itzultzaileari pasa nizkion esaldiak eta esan nion, “zuk egin duzun lana nireak segundo batzuetan egin du”. Noski, berak bezain ondo ez zuen egin makinak, baina kalitatea begiratzeko esan nion. Harri eta zur geratu zen, “ez dira zuzenak, baina ulergarriak dira” esan zuen. Aitortu beharra dago segundo batzuetan 1.500 esaldi itzultzea ondo dagoela. Gero, itzultzaileari gutxiago kostako zaio esatea ondo ala gaizki dagoen, zerotik itzultzen hastea baino.

Itzulpen automatikoak egiteko corpus bolumen handiak behar dira eta euskarak ez ditu, era berean dauzkagun itzulpen memoriak ez ditugu elkarbanatzen. Ondo ari al naiz?


Nondik aterako ditut laginak? Euskaraz publikatutakoa, doan, erraz eta formatu egokian lortzeko moduan... baldintza larregi dira, zaila da.

Tesirako enpresa batekin jarri zinen harremanetan. Ohikoa da hemen alor akademikoa eta enpresa elkarlanean aritzea?


Nahiko banatuta egoten dira. Unibertsitatean, batzuetan, ez dakigu ebatzitako problemak praktikan zelan jarri. Gero hor dago enpresa mundua gu gure lekuan jartzeko, “horrek ez du ezertarako balio, gaur egungo gizarteak behar duena hau da”. Oso tesi gutxi daude enpresarekin lotuta. Unibertsitatean ahaztu egiten gara gizartearen beharrez, enpresak berriz lurrean kokatuta daude. Gure proiektua sortu zen enpresa batek eskatuta.

Euskara askoz zailagoa da itzulpengintzarako, berezitasun linguistikoak dituelako, ala hori ez da egia eta arazoa corpus falta da.


Batetik, euskara oso bitxia da morfologikoki, atzizkiak jartzen ditu bata bestearen atzetik eta hitzaren esanahia askotxo aldatzen da. Bestetik, sintaxia ere oso bitxia da, gaztelaniaz egiten dena da subjektua, aditza eta osagaiak. Euskaraz ohiko egitura da subjektua, osagaiak eta aditza, eta aditzaren aurretik garrantzitsuena dena. Itzulpengintza egin behar dugunean, bi gauza hartu behar ditugu kontuan: bata, esanahia batetik bestera trasladatzea, eta bestea, gero hitzen orden egokia aukeratzea. Katalanaren eta gaztelaniaren artean ordena nahiko parekoa da, sistemari ez zaio hainbeste kostatzen ordena hori ulertzea, baina sistema estatistikoentzat kristo bat da urrutiko lerrokadurekin lan egitea [euskara eta gaztelania kasu]. Erronka da desberdinak diren hizkuntzen arteko itzulpena egitea.

Euskara eta beste hizkuntza batzuk egongo dira antzeko egoeran, ezta?


Alde horiek kontuan hartuta bai, baina euskarak gainera, baliabide linguistiko gutxi dauka, hiztun gutxi dauka. Baliabide gutxi izanda kalitate bereko gauzak lortzen saiatzea beste erronka bat da.

Alegia, berezitasunetan finlandiera pare da euskara, baina kopuruan finlandierak irabazten dio.


Noski. Orain biltzarretan esaten ari direna da metodo bereziak behar ditugula hizkuntza murriztuak bultzatzeko.
Singapurren egon naiz duela gutxi. Egunkarietan parte batzuk txineraz zeuden eta beste batzuk ingelesez. Itzulpengintza egin nahi baduzu hor ez daukazu corpus paralelorik, alegia, hau honen itzulpena da. Gara egunkariaren kasua bera da.
Erronka da hizkuntza batean zein bestean hurbilpen handia izango duten edukiak aurkitzea.

Azkenak
NATOren eta Trumpen irizpideen aurka, Espainiaren aurrekontu militarra %5era igotzeari uko egin dio Sánchezek

Oraindik ez dago garbi noiz arte eutsiko dion bere erabakiari Pedro Sánchez Espainiako Gobernuko lehendakariak, baina korapilo handi samarra sortzen ari da NATOren barruan, honek aurrekontu militarra %5era igotzea arbuiatu ondoren.


Elkarte frankistak debekatuko dituen legea onartu du Espainiako Kongresuak

Espainiako Gobernua osatzen duten PSOEren eta Sumar alderdien arteko koalizioak aurkeztutako lege proposamena onartu dute Kongresuan ostegun goizean, frankismoaren apologia egiten duen edozein erakunde debekatuko edo legez kanpo utziko lukeena


Beste familia bat etxegabetu dute Iruñeko Alde Zaharreko Jarauta kalean

Ostiral goizaldean emakume bat eta bere semea etxegabetu dituzte Iruñeko Alde Zaharreko Jarauta kaleko 82. zenbakian. Espainiako Poliziaren laguntzarekin, epaitegiko segizio judiziala etxebizitzan sartu eta eta bizilagunak kanporatu dituzte.


2100. urtean herritarren %60 urak har ditzakeen eremuan biziko dira Eusko Jaurlaritzaren azterketaren arabera

Bero boladak ohikoagoak eta luzeagoak dira, azken bi mendeetan 20 zentimetrotan igo da itsas maila eta EAEko bataz besteko tenperatura 0,3 ºC igo da hamarkada bakoitzean.


Donostiako Gladys Eneako paumei emandako tratu txarrak salatu ditu Eguzki taldeak

Eguzki elkarte ekologistak salatu du Donostiako parkean gertatutakoa. Parkean bizi diren hainbat paumari lumak erauzi dizkiote, odoletan utzita. Beraz, erasoa izan dela ondorioztatu dute eta ez dela hegaztien lumaberritze prozesu naturala izan. Eguzki


Hamabost migratzaile bizi ziren kanpaleku bat hustu du Getxoko Udalak

Algortako Larrañazubi inguruan dago kanpalekua, eta Getxoko Udaltzainek hori husteari ekin diote ostegun goizean. Alkateak adierazi du han bizi ziren pertsonen "segurtasuna" bermatzeko eta "ingurune natural hori zaintzeko" desegin dutela. Getxoko EH Bilduren... [+]


Zizurren ikasleak komun eta aldageletan grabatzen zituen irakasleak 180 urteko zigorra jaso dezake

Zizur Nagusiko institutu batean 41 pertsona grabatu zituen eta haietako 30 bere ikasleak ziren. Argazki batzuk sare sozialak erabilita lortzen zituen eta adimen artifizialarekin aldaketak egiten zituen.


Jaurlaritzak babestu du Jerusalemgo kolonoentzat CAF egiten ari den tranbia

Beasaingo enpresaren akzioen %3ren jabe da Eusko Jaurlaritza, eta adierazi du CAFek nazioarteko legedia errespetatzen duela. BDZ Euskal Herriak gogorarazi dio gobernuak derrigortuta daudela okupazioa bultzatzen duten proiektuen aurka egitera.


Irungo ‘auzokide patruilen’ atzean, islamofobia, xenofobia eta erailketarako deiak

Maiatzaren 5ean “Lo Vimos en Irun” WhatsApp taldea sortu zenetik, 700 lagun baina gehiago bildu dira larunbatetan patruilak antolatzen dituen taldera. “Segurtasuna bermatzeko” eta “delituak prebenitzeko” aitzakien gibelean, gorrotoaren haztegi... [+]


2025-06-20 | Gedar
Basauriko Sidenorrek 1.207 tona altzairu bidali dizkio arma-ekoizle sionista bati

Egoitza nagusia Basaurin duen enpresak IMI Systemi egin dio bidalketa. Armagintzan bakarrik aritzen da Israelgo Estatuko konpainia hori.


Arabako Mahastiak sor-markari behin betiko itxi dio bidea Espainiako Auzitegi Gorenak

EAEko Justizia Auzitegi Nagusiak ezetza eman zion ABRA Arabako Errioxako Upategien Elkarteak bultzatutako sor-markari. Elkarteak helegitea jarri zion ebazpenari, eta orain Espainiako Auzitegi Gorenak ezetza berretsi du.
 


Beskoitzen ikastola eraikitzeko lursaila eskuratu du Seaskak

Ikastola 2013an sortu zuten eta ondoko urtean jarri zuten prefabrikatu bat herriko etxearen lursail batean bertatik bideratzeko ikaskuntza. 2022an eraikin sendo bat eraikitzeko proiektua aurkeztu zuten, baina herriko kontseiluak ez zuen horrelakorik onartu. Gatazka gogorra egon... [+]


Eguneraketa berriak daude