Latxa: euskarazko hizkuntza eredu handiena eta librea sortu du Hitz-ek

  • Aina Flor izeneko hizkuntza eredu handi katalan librea aurkeztu zen duela gutxi, eta duela astebeteko albistean genioen Hitz Zentro euskalduneko Eneko Agirre zuzendariak iragarri zuela bazetorrela laster euskarazkoa ere. Eta atzo bertan egin zuen publiko Hitz Zentroak: Latxa. LLM edo hizkuntza eredu handi bat da, adimen artifizialeko ekimenek oinarrian duten super-datubasea, erraz esanda. OpenAI-ren ChatGPT bertsioen oinarriak dira LLM-ak adibidez. Orain holako bat dugu, euskaraz (tira, eredu sorta bat egiaz, 3 korpusek osatua).

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2024ko urtarrilaren 30ean - 07:30
Zure babesik gabe independetzia ezinezkoa zaigu

Hitz Zentroaren esanetan, "eredu irekien familia da" Latxa, "euskarazko hizkuntza eredurik handiena" bere baitan duena. Meta edo Facebook enpresaren Llama 2 hizkuntza ereduaren gainean dago eraikita, eta haren lizentzia jarraitzen du. Llama 2 ikusia dugu aurretik ere euskarazko emaitza bikainak ematen, ahozko itzulpen automatiko zuzena euskaraz egiteko gai Seamless M4T produktuaren bidez. Latxaren logoak, hain zuzen, Llama eta ardi euskalduna batzen ditu, izenean ere badagoelarik konexio bat (iruditu zaigunez).

Latxak 7-70 mila miloi parametro arteko ereduak biltzen ditu. Ereduak eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute ikerlari euskaldunek, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, Internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Berez, Latxa ez da egin publiko orokorrarentzat, hori aurrerago etorriko da. Hala ere, hiru ereduak eskuragarri daude HuggingFace plataforman daude eskuragarri, eta ingeniari adituak erabili ahal izandgo ditu kontsultatuz “model card” delakoa: informazio teknikorako eta ereduak erabiltzen hasteko argibideak hortxe dira.

Latxaren garapena ikerketa, berrikuntza eta garapena sustatzeko ekimen baten ondorio izan dira, Eusko Jaurlaritzak lagundutako IKER-GAITU proiektuaren parte da, EuroHpc programa europarraren laguntzarekin.

Gaur egungo hizkuntza ereduek errendimendu harrigarria dute, adibidez ingelesarako ChatGPT edo Bard. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, ez. Eredu hauekin pauso bat eman du Hitz Zentroak egoerari buelta emateko saioan, eta beren datuen arabera, euskarazko formulazioei beste sistemek baino hobeto erantzuten du Latxak.

Informazio gehiago, hemen.

Hugginface-n: Latxa.


Kanal honetatik interesatuko zaizu: Adimen artifiziala
Komunikazioa errazteko eta mintzamenaren errehabilitazioa lantzeko IA-Speak tresna garatzen ari dira Nafarroan

Adimen artifizialarekin garatutako tresna bat da IA-Speak. Bi erabilera nagusi izanen ditu: mintzamena itzultzen duen gailu bat eta erabiltzaileen mintzamena aztertzen duen plataforma bat.


2025-08-18 | Dabid Martinez
Metaren eta adimen artifizialaren kolonialismo digitala

Drop Site News hedabideak (botere-abusuak mundu mailan agerian jartzeagatik ezaguna) argitaratutako ikerketak interneten bilakaeran kezka sortu beharko lukeen joera baten adierazle den albistea argitaratu du. Facebook, Instagram eta WhatsApp-en jabe den Meta multinazionalak [+]


2025-08-18 | Sustatu
ZelaiHandi, euskarazko testuen korpus handi eta (ia) libre bat

Orain NLP hizkuntza teknologietako euskal enpresak euskarazko testuen korpus handi bat jarri du sarean, Hizkuntza Eredu Handien (LLM) eta Adimen Artifizialeko ekimenen biltegi nagusia den Hugginf Face baliabidean. ZelaiHandi du izena.


ChatGPT psikologo bezala erabiltzearen arriskuez mintzatu da Mireia Centeno Gutierrez psikologo eta psikopedagogoa

Ohartarazi du ChatGPT lanketa emozional “sakonak” egiteko erabiltzea “arriskutsua” izan daitekeela ez duelako erabiltzailearen testuingurua ezagutzen eta “gehiago biktimizatu” dezakeelako.


2025-07-23 | Civio
Hiru melanomatik batean erratu eta azal iluneko pazienteak alboratzen dituen algoritmoa

Osakidetza lanean ari da Asisa aseguru-etxe pribatuaren filial baten Quantus Skin sistema osasun-zentroetan ezartzeko, 1,6 milioi euroko inbertsioa eginda. Adituek kritikatu egin dute adimen artifizialeko sistema hori, emaitza "eskasak" eta "arriskutsuak"... [+]


2025-07-17 | Sustatu
WeTransfer: erabilpen baldintza berri ez oso fidatzekoak

Hautsak harrotu ditu azken orduetan Interneten WeTransfer zerbitzu oso praktiko eta erabiliak iragarri dituen erabilpen baldintza berriek, abuztuan jarriko direnak indarrean. WeTransfer da oso fitxategi (edo fitxategi multzo) handiak bidaltzeko modu bat. Ez dira kabitzen e-posta... [+]


Teknologia
Whatsappa utzi

Ez naiz buruan ideia hau darabilen bakarra, asko gara munduan Whatsapp eta Telegram mezularitza aplikazioak hartzen ari diren botereaz kontziente bide hori jorratu nahi dugunak.

Familia, lagunak, komunitateak, lana, komunikabideak... Mezularitza aplikazioekin dena dugu... [+]


2025-07-14 | Sustatu
Ez fidatu Osakidetzan ‘Quantus Skin’ azterketa egiten badizute

Civio fundazioak salatu duenez, Osakidetzak darabilen AA sistema batek (Quantus Skin) kontratuan agindutakoa baino askoz efikazia gutxiago dauka. 1.6 milioi euroko inbertsioa da, larruazalaren melanoma minbiziak detektatzea du helburu, eta bere emaitzak eskatu zuen %85eko... [+]


Julia Mengolini kazetari argentinarrak Milei salatu du, bere aurkako “gorroto kanpaina” bat aireratzeagatik

Adimen Artifizialaz egindako bideoak sareratu dituzte, Mengolini difamatzen dutenak. “Gorrotoa bultzatzea, indarkeria kolektiboa eta bortxazko mehatxuak” izan direla salatu du kazetariak, eta zigor bideari ekingo diola.


2025-06-19 | Sustatu
AA batek zenbat eta gehiago “arrazoitu”, orduan eta okerrago

Applen lan egiten duen ikertzaile talde batek adimen artifizialaren (AA) esparrurako egindako ikerketa baten emaitza argitaratu dute. Izenburu esanguratsua du: The Illusion of Thinking. Euskaraz, bere izenburu luzean, honela: Pentsatzearen ilusioa: arrazoitzeko ereduen... [+]


Giza adimena

Stanfordeko Unibertsitateak dohainik eskaintzen duen Storm deituriko erreminta ezagutu berri dut. Adimen artifiziala erabilita, edozein gairen inguruan artikulu akademikoak sortzeko diseinatutako ikerketa tresna da. Fidagarriak eta baimenduak diren hamaika iturri erabiltzeko gai... [+]


2025-06-05 | Sustatu
42: txat adimentsu harrigarriena, Nafarroan sortua nonbait

Laboral Kutxa Katedrak eta Nafarroako Unibertsitate Publikoak (NUP) antolatu dute Arte eta Zientziaren I. lehiaketa (webgunea euskaraz ere badago, baina oso trakets). Artea, zientzia eta pentsamendu kritikoa uztartzen dituzten proiektuak nahi zituzten, eta zenbait aurkeztu... [+]


Teknologia
KoipetsuAA

Aspaldi egin nuen lantegi batean, kapitalismoaren izaera alderatu zuten itsasoan koipe jario batekin, zabaltzen doan orbana, bidean hondakina eta miseria sortzen duena eta garbitzeko zaila dena.

Egun, AAren koipea nonahi dugu,beharbada ezagunenak honakoak direlarik:... [+]


Teknologia
Sabotaje algoritmikoa

Informazio sareetan murgilduta, aktibismo digitalaren inguruan zenbait informaziora heldu naiz. Aktibista digitaletan pentsatzen dudanean, antolaketa moduetan ere pentsatzen dut, denok ez diegu-eta arazoei berdin heltzen. Batzuek aktibismo digitalari komunikazioatik heltzen... [+]


Teknologia
Adimenaren biologiaz

Herriko liburutegian, teknologiaren inguruko espazio ireki batean hartzen dut parte. Aurrekoan, haurrentzako robotika proiektu bat sortzeko Arduino plaka erabiltzen ikasi nahi zuten bi emakume gerturatu ziren, bata programatzailea, bestea ni bezalako kuxkuxeroa. Hirurak jarri... [+]


Eguneraketa berriak daude