Traducido automaticamente do vasco, a tradución pode conter erros. Máis información aquí. Elhuyarren itzultzaile automatikoaren logoa

Latxa: Hitz crea o modelo lingüístico máis grande e libre en eúscaro

  • Hai pouco presentouse o gran modelo de lingua catalá libre chamado Aina Flor, e na noticia da semana pasada diciamos que o director do Centro Vasco Hitz, Eneko Agirre, anunciou que en breve tamén viña en eúscaro. E onte mesmo fíxose público o Centro Hitz: Latxa. LLM é un gran modelo lingüístico, unha superbase de datos na que se basean as iniciativas de intelixencia artificial. Os LLM son a base das versións ChatGPT de OpenAI, por exemplo. Agora temos un destes, en eúscaro (bo, unha chea de modelos de verdade, formado por 3 corpus).
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

30 de xaneiro de 2024 - 07:30

Segundo Hitz Zentroa "é a familia de modelos abertos" Latxa, que inclúe o "maior modelo lingüístico en eúscaro". Está construída sobre o modelo lingüístico Meta ou Facebook Chama 2 e segue a súa licenza. Chama 2 xa viu excelentes resultados en eúscaro, capaz de realizar unha correcta tradución automática oral en eúscaro a través do produto Seamless M4T. O logo de Latxa é precisamente o que une a Chama e á ovella vasca, aínda que tamén hai unha conexión en nome (como nos pareceu).

Latxa recolle modelos de entre 7 e 70 mil millóns de parámetros. En canto ao conxunto de textos para a construción de modelos, os investigadores vascos han utilizado EusCrawl, un conxunto de textos en eúscaro de 1,72 millóns de documentos e 288 millóns de palabras. EusCrawl extraeuse de 33 webs de contido de calidade, ofrecendo maior calidade que outras técnicas de formación de corpus desde Internet.

De feito, Latxa non se fixo para o público xeral, iso virá máis adiante. Con todo, o tres modelos están dispoñibles na plataforma HuggingFace e poderán ser utilizados polo enxeñeiro experto consultando o “model card”, onde se atopan as instrucións para a información técnica e a iniciación no uso dos modelos.

O desenvolvemento de Latxa foi o resultado dunha iniciativa de investigación, innovación e desenvolvemento, que forma parte do proxecto IKER-GAITIK, apoiado polo Goberno Vasco, en colaboración co programa europeo EuroHpc.

Os modelos lingüísticos actuais teñen un rendemento sorprendente, como o inglés ChatGPT ou o inglés Bard. Con todo, no caso das linguas minoritarias e o eúscaro non. Con estes modelos deu un paso na sesión de Hitz Zentroa para dar a volta á situación, e segundo os seus datos, Latxa responde mellor que outros sistemas ás formulacións en eúscaro.

Máis información, aquí.

En Hugginface: Latxa.


Interésache pola canle: Adimen artifiziala
Israel deixa o asasinato dos palestinos en mans da intelixencia artificial
Lese ao titular e alguén pensa que se trata dunha esaxeración, unha generalización excesiva do xornalista. 'Lavender': The AI machine directing Israel's bombing spree in Gaza (Máquina de intelixencia artificial que dirixe a campaña de bombardeo de Israel en Gaza). Son as... [+]

2024-04-17 | Reyes Ilintxeta
Elisabeth Pérez. Defensor da creación
"A Intelixencia Artificial é unha ferramenta de futuro, pero a súa esencia é roubar creacións do pasado"
Coñecín o labor dos creadores Elisabeth no congreso de librarías celebrado en marzo en Pamplona, defendendo con paixón a Intelixencia Artificial creativa. Pouco despois quedámonos para entrevistarnos antes de ir á Feira do Libro de Bolonia e a Colombia. Recoñezo que... [+]

Están os dereitos civís en perigo en Europa?

O 8 de decembro de 2023, a Unión Europea (UE) aprobou a primeira regulación integral da intelixencia artificial, pero segundo un documento interno adquirido polo semanario Político "posibilítase un uso irresponsable e desproporcionado da tecnoloxía de identificación... [+]


Novas formas de violencia dixital: Pornografía sintética non aceptada

Na era dixital, cada vez temos máis exemplos de como a tecnoloxía afecto á intimidade humana e estanse producindo fenómenos alarmantes. Última pornografía sintética non aceptada. Este termo refírese á manipulación de imaxes ou vídeos mediante intelixencia artificial... [+]


Eguneraketa berriak daude