Itzultzaile automatikoen bolada berria

Itzultzaile automatikoak ohiko tresna bihurtu zaizkigu, bai ondo ezagutzen ez ditugun hizkuntzak ulertzen laguntzeko, baina baita ere hobeto dakizkigun hizkuntzen arteko itzulpen lanaren zama arintzeko. Ezagunak dira itzultzaile automatikoek egin ohi dituzten hanka sartu xelebreak, partidu politiko eta denda-kate ospetsuek argitara eman izan dituztenak. Probatu “Trenes mañana y tarde” Eusko Jaurlaritzaren itzultzailean eta hor azaltzen da aspalditik bagenekiena: “Trenak bihar eta berandu”. Tira, halako itzulpen aldrebesak egon izan dira gure inguruan itzulpen automatikoa baina lehenago, baina nahiz eta tresna hauen erabilgarritasuna zalantzan ez jarri, bistan uzten dituzte gaur egungo teknologiaren gabeziak.

Nola egin aurre gabezi horiei? Orain arteko itzulpen teknologia hitzen kontaketa eta probabilitate estimazioetan oinarritu izan da: itzulpen memoriatan egin izan diren itzulpenak aztertu, hitzak nola itzuli izan diren zenbatu, eta testu berri bat itzultzean kontaketa horiek erabili itzulpen probableena sortzeko. Horrela esanda, ez da harritzekoa metodo horiek zailtasunak izatea egitura sintaktikoak (Me lo han dado a mi) edo hitz polisemikoak (tarde) itzultzeko orduan.

Ikerlari askok uste izan dugu itzulpenen kalitatea hobetzeko bidea testuen egitura sintaktiko eta semantikoa automatikoki atzemateko tekniketatik etorriko zela, baina aldaketa espero ez zen bidetik etorri da. Ikusita sare neuronalek (bereziki ikasketa sakona edo “deep learning” deritzatenek) irudien prozesamenduan eta giza-ahotsaren ezagutzan izan duten arrakasta, ikerlari batzuek horiek aplikatu dituzte itzulpenera. Labur esatearren, metodo berri hauek hitzen esanahia bektoreen bitartez errepresentatzen dute eta egitura sintaktikoa matrizeen biderketa bidez, orain arteko teknologiaren mugak gaindituz. Denbora gutxian garapen izugarria izan dute, eta egun Google, Microsoft eta Systran enpresek teknologia hau darabilte itzulpenak sortzeko, aurreko 20 urtetan garatutako teknologia alde batera utziaz. Gainera, itzultzaile hauek gai dira esaldien errepresentazioak eraikitzeko, eta horrek ahalbideratu du harreman gutxiago duten hizkuntzen arteko itzultzaileen garapena erraztea (eta hau ez da kontu makala, 100 hizkuntzen artean itzultzeko 10000 itzultzaile ezberdin behar baitira).

Berriki egindako azterketa independente batek erakutsi du ikasketa sakonari esker lexikoan, morfologian, eta hitzen hurrenkeran egin izan diren erroreak %20 inguru gutxitu direla. Hala ere, azterketa berdinak azaleratu du fenomeno sintaktiko eta semantiko ugari oraindik ondo itzuli gabe gelditzen direla – egitura linguistiko aberatsagoak behar direnaren seinale, beharbada. Finean, itzultzaile automatikoak hobetu dira bai, baina makinek gure mundua ulertzen ez duten bitartean beraientzat tren batzuk bihar eta berandu etortzen jarraituko dute.

Esteka interesgarriak

http://aldizkaria.elhuyar.eus/analisiak/itzulpen-automatikoaren-magia-eta-mugak/

https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/https://www.wired.com/2016/12/2016-year-deep-learning-took-internet/

https://www.cnet.com/news/microsoft-translation-app-group-conversation-ai/

https://globenewswire.com/news-release/2016/12/20/899331/0/en/SYSTRAN-Pure-Neural-Machine-Translation-first-positive-customer-feedback-Applications-available-early-2017.html

https://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-with-gpus/

Cookie	Duration	Description
cookielawinfo-checkbox-necessary	11 months	Cookie hau RGPDren cookieen onespen-pluginak osatzen du. "Beharrezkoak" kategoriako cookieen onespena gordetzeko erabiltzen dira.
cookielawinfo-checkbox-non-necessary	11 months	Cookie hau RGPDren cookieen onespen-pluginak osatzen du. "Ez-beharrezkoak" kategoriako cookieen onespena gordetzeko erabiltzen dira.
PHPSESSID	15 days	Cookie hau PHP aplikazioen oinarria da. Erabiltzaileen saio bakarreko ID gorde eta identifikatzeko erabiltzen da cookiea, web guneko erabiltzaile-saioa kudeatzeko. Cookie-a leihoa ixtean ezabatzen da.
sonaar_mp3_player_settings	session	Podcastak entzuteko erabiltzen den erreproduzitzailearen ezarpenak gordetzeko erabiltzen da.
sonaar_mp3_player_time	session	Podcastak erreproduzitzailean erabiltzailea entzuten ari den momentua gordetzeko erabiltzen da, orrialdez aldatzean berriz hasieratik hasi behar ez izateko.
sonaar_mp3_player_volume	session	Podcastak entzuteko erabiltzen den erreproduzitzailean hautatutako musika bolumena gordetzeko erabiltzen da.
viewed_cookie_policy	11 months	RGPDren cookieen onespen-pluginak finkatzen du cookiea, eta erabiltzaileak cookieak erabiltzea onartu duen ala ez gordetzeko erabiltzen da. Ez du datu pertsonalik.

Cookie	Duration	Description
DoNotCheckThemeUpdate	3 days	Deskribapenik gabe.
GoogleAdServingTest	session	Deskribapenik gabe.
isg	5 months 27 days	Deskribapenik gabe.
st_samesite	session	Deskribapenik gabe.
test_cookie	11 months	Cookie hau doubleclick.net-ek ezartzen du. Cookiearen helburua erabiltzailearen nabigatzaileak cookieak onartzen dituen zehaztea da.
xlly_s	1 day	Deskribapenik gabe.
__gpi	1 year 24 days	Deskribapenik gabe.

Cookie	Duration	Description
Google Ads	never	Google AdSensek erabiltzen du bere zerbitzuak erabiliz web guneetan publizitatean jartzen duten webguneen eraginkortasunarekin probak egiteko.
Google Adwords remarketing	12000
IDE	1 year 24 days	Google DoubleClick-ek erabiltzen du, erabiltzaileak webgunea bisitatu aurretik webgunea eta beste edozein iragarki nola erabiltzen dituen azaltzen duen informazioa gordetzeko. Erabiltzaileentzat garrantzitsuak diren iragarkiak erabiltzailearen profilaren arabera aurkezteko erabiltzen da.
VISITOR_INFO1_LIVE	5 months 27 days	Cookie hau Youtube bidez konfiguratzen da. Webgune batean txertatutako YouTubeko bideoen informazioa arakatzeko erabiltzen da.
YSC	session	Cookie hau Youtube bidez konfiguratzen da eta txertatutako bideoen ikustaldien jarraipena egiteko erabiltzen da.
yt-remote-connected-devices	never	These cookies are set via embedded youtube-videos.
yt-remote-device-id	never	Cookie hauek txertatutako Youtube bideoen bidez gehitzen dira.
yt.innertube::nextId	never	Cookie hauek txertatutako Youtube bideoen bidez gehitzen dira.
yt.innertube::requests	never	Cookie hauek txertatutako Youtube bideoen bidez gehitzen dira.

Cookie	Duration	Description
CONSENT	16 years 5 months 4 days 13 hours 16 minutes	Cookie hauek youtube-bideo txertatuen bidez ezartzen dira. Datu estatistiko anonimoak erregistratzen dituzte; adibidez, bideoa zenbat aldiz erakusten den eta erreprodukziorako zer doikuntza erabiltzen diren. Ez da datu sentikorrik biltzen Googleko zure kontuan saioa hasi ezean; kasu horretan, zure aukerak zure kontuarekin lotuta daude, adibidez, bideo batean “Atsegin dut” sakatuz gero.
vuid	2 years	Cookie hau Vimeok erabiltzen du jarraipen-informazioa biltzeko. Identifikazio bakarra ezartzen du web gunean bideoak txertatzeko.
_ga	2 years	Cookie hau Google Analytics-ek instalatzen du. Bisitaren, saioaren, kanpainaren datuak kalkulatzeko eta gunearen erabileraren erregistroa eramateko erabiltzen da cookiea, gunearen txosten analitikoa egiteko. Cookiek informazioa modu anonimoan gordetzen dute eta zoriz sortutako zenbaki bat esleitzen dute, bisitari bakarrak identifikatzeko.
_gid	1 day	Cookie hau Google Analytics-ek ezartzen du. Bisitariek web gune bat nola erabiltzen duten jakiteko eta web gunearen errendimendua azaltzen duen txosten analitikoa sortzen laguntzeko erabiltzen da cookiea. Bildutako datuek bisitari-kopurua, jatorri-iturria eta modu anonimoan ikusitako orriak barne hartzen dituzte.
__gads	1 year 24 days	Cookie hau Googlek finkatzen du eta dounleclick.com izenarekin biltegiratzen da. Erabiltzaileek iragarki jakin bat zenbat aldiz ikusten duten arakatzeko erabiltzen da cookie hau. Iragarki horrek kanpainaren arrakasta neurtzen eta kanpainak sortutako diru-sarrerak kalkulatzen laguntzen du. Cookie hauek konfiguratzen den domeinutik bakarrik irakur daitezke, ez da informaziorik bilduko beste leku batzuetan nabigatzean.

Itzultzaile automatikoen bolada berria

Esteka interesgarriak

Makinarekin solasean