Traduït automàticament del basc, la traducció pot contenir errors. Més informació. Elhuyarren itzultzaile automatikoaren logoa

Latxa: Hitz crea el model lingüístic més gran i lliure en basc

  • Fa poc es va presentar el gran model de llengua catalana lliure anomenat Aina Flor, i en la notícia de la setmana passada dèiem que el director del Centre Basc Hitz, Eneko Agirre, va anunciar que en breu també venia en basc. I ahir mateix es va fer públic el Centre Hitz: Latxa. LLM és un gran model lingüístic, una superbase de dades en la qual es basen les iniciatives d'intel·ligència artificial. Els LLM són la base de les versions ChatGPT d'OpenAI, per exemple. Ara tenim un d'aquests, en basc (bo, un munt de models de veritat, format per 3 corpus).
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

30 de gener de 2024 - 07:30

Segons Hitz Zentroa "és la família de models oberts" Latxa, que inclou el "major model lingüístic en basc". Està construïda sobre el model lingüístic Meta o Facebook Flama 2 i segueix la seva llicència. Flama 2 ja ha vist excel·lents resultats en basc, capaç de realitzar una correcta traducció automàtica oral en basca a través del producte Seamless M4T. El logo de Latxa és precisament el que uneix a Flama i a l'ovella basca, encara que també hi ha una connexió en nom (com ens ha semblat).

Latxa recull models d'entre 7 i 70 mil milions de paràmetres. Quant al conjunt de textos per a la construcció de models, els investigadors bascos han utilitzat EusCrawl, un conjunt de textos en basc de 1,72 milions de documents i 288 milions de paraules. EusCrawl es va extreure de 33 webs de contingut de qualitat, oferint major qualitat que altres tècniques de formació de corpus des d'Internet.

De fet, Latxa no s'ha fet per al públic general, això vindrà més endavant. Tanmateix, els tres models estan disponibles en la plataforma HuggingFace i podran ser utilitzats per l'enginyer expert consultant el “model card”, on es troben les instruccions per a la informació tècnica i la iniciació en l'ús dels models.

El desenvolupament de Latxa ha estat el resultat d'una iniciativa de recerca, innovació i desenvolupament, que forma part del projecte IKER-GAITIK, secundat pel Govern Basc, en col·laboració amb el programa europeu EuroHpc.

Els models lingüístics actuals tenen un rendiment sorprenent, com l'anglès ChatGPT o l'anglès Bard. No obstant això, en el cas de les llengües minoritàries i el basc no. Amb aquests models ha fet un pas en la sessió d'Hitz Zentroa per a donar la volta a la situació, i segons les seves dades, Latxa respon millor que altres sistemes a les formulacions en basca.

Més informació, aquí.

En Hugginface: Latxa.


T'interessa pel canal: Adimen artifiziala
Israel deixa l'assassinat dels palestins en mans de la intel·ligència artificial
Es llegeix al titular i algú pensa que es tracta d'una exageració, una generalització excessiva del periodista. 'Lavender': The AI machine directing Israel's bombing spree in Gaza (Màquina d'intel·ligència artificial que dirigeix la campanya de bombardeig d'Israel a Gaza)... [+]

2024-04-17 | Reyes Ilintxeta
Elisabeth Pérez. Defensor de la creació
"La Intel·ligència Artificial és una eina de futur, però la seva essència és robar creacions del passat"
Vaig conèixer la labor dels creadors Elisabeth en el congrés de llibreries celebrat al març a Pamplona, defensant amb passió la Intel·ligència Artificial creativa. Poc després ens quedem per a entrevistar-nos abans d'anar a la Fira del Llibre de Bolonya i a Colòmbia... [+]

Estan els drets civils en perill a Europa?

El 8 de desembre de 2023, la Unió Europea (UE) va aprovar la primera regulació integral de la intel·ligència artificial, però segons un document intern adquirit pel setmanari Polític "es possibilita un ús irresponsable i desproporcionat de la tecnologia d'identificació... [+]


Noves formes de violència digital: Pornografia sintètica no acceptada

En l'era digital, cada vegada tenim més exemples de com la tecnologia afecta a la intimitat humana i s'estan produint fenòmens alarmants. Última pornografia sintètica no acceptada. Aquest terme es refereix a la manipulació d'imatges o vídeos mitjançant intel·ligència... [+]


Eguneraketa berriak daude