EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.
Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/
Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.
Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".
Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.
EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.
Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.
Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.
EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.
EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.
Espainiako Gobernuak Europako Batzordeari egindako eskaerari Euskal Herriko, Kataluniako eta Galiziako 28 unibertsitatek babesa eman diote. Salvador Illa Kataluniako Generalitateko presidenteak eta Imanol Pradales lehendakariak eskutitz bat sinatu dute eskaerari babesa... [+]
Hezkuntza Sailak 2025-2026 ikasturtearen antolaketa bigarren hezkuntzako ikastetxe publikoetan ebazpena argitaratu du. Urteroko agiria da, uztail hasierakoa; ikasturte-hasierako ebazpena esaten diogu.
Aurtengoan, hauxe jasotzen du euskarazko bertsioak:... [+]
UEMAren zuzendaritza batzordeko kideek hedabideen aurrean agerraldia egin dute ostegun eguerdian Zarautzen, Espainiako Auzitegi Gorenaren azken epai euskarafoboa salatzeko. Epaia "larria" dela adierazi dute, eta batez ere udalerri euskaldunei eta euskaraz aritzen... [+]
Nerea Kortajarena EH Bilduko legebiltzakideak prentsa agerraldi batean esan du Eusko Legebiltzarrean dauden "gehiengoak" baliatu beharko liratekeela "hizkuntza politika berri bat ahalbidetzeko".
Maria Ubarretxena Eusko Jaurlaritzako bozeramailearen esanetan, “indar politiko batzuk erabaki politikoak judizializatzen ari dira”.
Vox alderdi ultraeskuindarraren eskariz EAEko Auzitegi Nagusiak 2023ko irailean baliogabetu zituen EAEKo Udal Legearen hainbat artikulu, euskararen normalizazioaren ingurukoak. Erabaki hura berretsi du orain Espainiako Auzitegi Gorenak, eta ez dago helegiterako aukerarik... [+]
Euskal Herrian euskara "hainbatetan ukatua edo bigarren hizkuntza bezala tratatua" dela salatu du EHEk, eta egoera hobetzeko hizkuntza politiketan jauziak egitea ezinbestekoa dela adierazi du. Hori dela eta, elkarretaratzeak egingo ditu Maulen, Donapaleun eta Baionan,... [+]
Egoerak bere horretan segituz gero, Euskal Hirigune Elkargoak ez du izenpetuko EEP Euskararen Erakunde Publikoa osatzeko hitzarmen berria. Orain artekoa urte hondarrean bukatuko denez, baliteke 2026an ofizialtasunik gabe izateaz gain, hizkuntza politika bideratzeko egitura... [+]
Laba, EHE eta Harituk antolatuta, bazkaria Oko Plazako Herri Sanferminak gunean izan da. Bertan, antolaketaren zergatiak azalduko dizkiguten galderak egingo dizkiegu.
40 elkarte biltzen dituen kolektiboa baikor agertu da, azken hilabeteetako hartu emanetan Irungo Udalak hizkuntza politikak elkarlanetik zuzentzeko borondate berria erakutsi duelako. «Hasierako alde bietako mesfidantzak gaindituz, adostasunak bilatu eta Hizkuntza Plan... [+]
2025-2026 ikasturtean, Medikuntza eta Erizaintza Fakultatean euskarazko 32 ikaspostu gehiago eskainiko ditu EHUk. Erakundeak adierazi du kopuru hori lortzea Eusko Jaurlaritzako Osasun Sailarekin eta Zientzia, Unibertsitate eta Berrikuntza Sailarekin izandako... [+]
Hizkuntzak osasun arretaren kalitatean duen eragina aztertu dute EHEk eta EHUk. Jon Zarate Sesma EHEko kide eta EHUko ikertzaile doktoreak emaitzen xehetasunak eman ditu.
UEMA Udalerri Euskaldunen Mankomunitatearen eskariz, 2036an Hego Euskal Herrian euskararen egoera zein izanen den aztertu du Siadeco ikerketa etxeak. Hipotesi batzuk beteko balira, hemendik hamar urtera ukanen genukeen errealitate soziolinguistikoari begiratuta, "egoera... [+]
Azterketak euskaraz gaia aktualitatean jarri zen berriz ekainean, baxoaren hilabetean. Etxepare lizeoko ikasleek aldarrikatzen segitu dute Baionako suprefeturaren edo herriko etxearen aitzinean eta euskaraz ari diren irakasleek prentsaurreko bat eskaini dute azpimarratzeko... [+]