EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.
Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/
Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.
Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".
Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.
EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.
Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.
Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.
EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.
EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.
IB3 telebista publikoaren neurria "katalanaren aurkako erasotzat" jo dute katalanaren normalizazioaren aldeko zenbait eragilek, eta "berehalako zuzenketa" eskatu dute. Zuzendaritza aldaketa izan da berriki kate publikoan, PP eta VOXen botoei... [+]
Euskararen biziberritzeari buruz asko hitz egiten ari azken urteetan eta horren inguruan ari da lanean Euskaltzaindiko talde bat. Talde horretan dago Jon Sarasua ere eta galdetu diogu zeregina zertan den. Galdetu diogu, halaber, udaberrian idatzi zuen Puprilusoko artikulu... [+]
Zientzia-dibulgazioa saritzeko erreferentziazko sariak izan dira CAF-Elhuyarrekoak. Antolatzaileek 31. edizioa martxan zegoela etetea erabaki dute, "sariketa behar bezala egiteko baldintzarik ez dagoelako".
Euskararen normalizazioaren motorrak herri dinamikara bueltatu behar du aurrera egin nahi badugu
Euskararen balizko etorkizunari buruzko ikerketa bat ezagutzera eman da berriki, eta zalaparta eragin du bertan irudikatzen den paisaia beltzak. Asaldamendu hori auzitan jarriz abiatuko dut nire ekarpena. Zergatik da harrigarria datu hori? Zein mundutan bizi gara, gure egoeran... [+]
Euskara badago Bilbon, baina non? Eta zertarako? Nork sortzen du euskarazko kultura, eta nork sostengatzen? Galdera horien aurrean, udalaren azken urteetako erabakiei begira, argiago ikusten da euskara eta kultura bizirik nahi ditugunontzat kezkagarriak diren erabakiak hartu... [+]
Sasijakintsua, jakineza eta franco txikia: horiexek dira aurrekoan Gotzon Lobera jaunak, Bilboko kale batzuen izenak aldatzeko ekimenaren kariaz, Deia egunkarian zuzendu dizkidan epitetoak. Ez du nire izena aipatu, egia, baina neu izan naizenez urte eta erdi luzeko borrokan... [+]
Euskalgintzaren Kontseiluak deituta, Espainiako Auzitegi Gorenak joan den astean ebatzitako sententzia salatzeko prentsaurreko bateratua egin dute Bilbon. Sententzia "euskal gizartearen eta euskal erakundeen borondate demokratikoaren aurkako eraso zuzena" dela... [+]
Lizarrako Udalak udarako antolatu dituen bost musika ikuskizunetan eta beste horrenbeste film emanaldietan bat bera ere ez da euskaraz izanen; datorren astean hasiko diren festen egitarauan haurrentzako ekitaldi bat dago euskaraz programatua, justu, erraldoi eta buruhandien... [+]
Hankak lurrean dituzte gure solaskideek. Euskalgintzaren eta herri mugimenduen joko-zelaian dabiltza etengabe eta eskarmentu horretatik hitz egiten dute euskarari eusteaz, hizkuntza zapalkuntza ez normalizatzeaz eta erdaldunengandik espero beharko genukeenaz. Gorka Torrek ez du... [+]
Gu gara euskara. Euskara gure baitan bizi da. Guk biziarazten dugu. Euskara bizi dugu eta euskarak bizi gaitu. Guk elikatzen dugu eta gu elikatzen gaitu. Euskara gara. Euskara egiten dugunean euskarak egiten gaitu. Guk dugu, euskarak gaitu.
Euskararik gabe ez gara, eta hori... [+]
Euskarazko B2 maila dutela ez ziurtatzeagatik Eibarko Egogain zaharren egoitzako lan eskaintza publikotik kanpo utzi zituzten bi langileen alde ebatzi du Donostiako Lehen Auzialdiko 3. Epaitegiak, CCOOk jakinarazi duenez. 2024ko urrian, Gonzalo Pérez Sanz epaileak... [+]
Europar Batasuneko estatu kideen gehiengoak atzera bota du euskara, katalana eta galiziera EBn hizkuntza ofizialak izateko eskaera. Finantzazio eta arlo legalean hainbat "zalantza" dituztela plazaratu dute.
Igande goizean elkarretaratzeak egin dituzte Euskal Herrian Euskarazek deituta, Geldi euskara zapaltzea! lelopean.
UEMAk antolatuta egin dituzte kontzentrazioak larunbat eguerdian, Espainiako Auzitegi Gorenaren azken epai euskarafoboaren aurka eta euskararen alde. Euskara “benetan” babesteko “adostasun sendoak” eskatu ditu UEMAk, “euskarak eta euskaldunok... [+]