Latxa: euskarazko hizkuntza eredu handiena eta librea sortu du Hitz-ek

  • Aina Flor izeneko hizkuntza eredu handi katalan librea aurkeztu zen duela gutxi, eta duela astebeteko albistean genioen Hitz Zentro euskalduneko Eneko Agirre zuzendariak iragarri zuela bazetorrela laster euskarazkoa ere. Eta atzo bertan egin zuen publiko Hitz Zentroak: Latxa. LLM edo hizkuntza eredu handi bat da, adimen artifizialeko ekimenek oinarrian duten super-datubasea, erraz esanda. OpenAI-ren ChatGPT bertsioen oinarriak dira LLM-ak adibidez. Orain holako bat dugu, euskaraz (tira, eredu sorta bat egiaz, 3 korpusek osatua).

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2024ko urtarrilaren 30an - 07:30

Hitz Zentroaren esanetan, "eredu irekien familia da" Latxa, "euskarazko hizkuntza eredurik handiena" bere baitan duena. Meta edo Facebook enpresaren Llama 2 hizkuntza ereduaren gainean dago eraikita, eta haren lizentzia jarraitzen du. Llama 2 ikusia dugu aurretik ere euskarazko emaitza bikainak ematen, ahozko itzulpen automatiko zuzena euskaraz egiteko gai Seamless M4T produktuaren bidez. Latxaren logoak, hain zuzen, Llama eta ardi euskalduna batzen ditu, izenean ere badagoelarik konexio bat (iruditu zaigunez).

Latxak 7-70 mila miloi parametro arteko ereduak biltzen ditu. Ereduak eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute ikerlari euskaldunek, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, Internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Berez, Latxa ez da egin publiko orokorrarentzat, hori aurrerago etorriko da. Hala ere, hiru ereduak eskuragarri daude HuggingFace plataforman daude eskuragarri, eta ingeniari adituak erabili ahal izandgo ditu kontsultatuz “model card” delakoa: informazio teknikorako eta ereduak erabiltzen hasteko argibideak hortxe dira.

Latxaren garapena ikerketa, berrikuntza eta garapena sustatzeko ekimen baten ondorio izan dira, Eusko Jaurlaritzak lagundutako IKER-GAITU proiektuaren parte da, EuroHpc programa europarraren laguntzarekin.

Gaur egungo hizkuntza ereduek errendimendu harrigarria dute, adibidez ingelesarako ChatGPT edo Bard. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, ez. Eredu hauekin pauso bat eman du Hitz Zentroak egoerari buelta emateko saioan, eta beren datuen arabera, euskarazko formulazioei beste sistemek baino hobeto erantzuten du Latxak.

Informazio gehiago, hemen.

Hugginface-n: Latxa.


Irakurrienak
Matomo erabiliz
Azoka
Kanal honetatik interesatuko zaizu: Adimen artifiziala
2024-04-21 | Reyes Ilintxeta
Elisabeth Pérez. Sorkuntzaren defendatzailea
"Adimen Artifiziala etorkizuneko tresna ei da, baina bere funtsa iraganeko sormen lanak lapurtzea da"

Martxoan Iruñean egin zen liburu denden kongresuan ezagutu nuen Elisabeth sortzaileen lana pasioz defendatzen Adimen Artifizial sortzailearen aurrean. Handik gutxira elkarrizketa egiteko gelditu ginen Bolognako Liburu Azokara eta Kolonbiara joan aurretik. Aitortzen dut... [+]


2024-03-24 | Diana Franco
Teknologia
Efizientziak gidatuta

Ikasle garaian erakutsi zidaten eraginkortasun eta efizientzia hitzen atzean zegoen ezberdintasuna. Garai hartan efizientzia helburu bat iruditzen zitzaidan, gaur egun ez nago hain ziur. Eraldaketa digitalei esker lorturiko efizientziak onura asko ekarri dizkigu, behintzat... [+]


Europako Parlamentuak Adimen Artifizialaren Legea onartu du

Parlamentuak asteazkenean onartu du adimen artifizialari buruzko legea, haien esanetan segurtasuna eta oinarrizko eskubideen errespetua bermatzen dituena, eta, aldi berean, berrikuntza bultzatzen duena.


Eguneraketa berriak daude