EusCrawl, euskarazko hitzen korpus erraldoia

  • EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2022ko martxoaren 24an - 09:10
Kazetaritza independenteak herritarren babesa du arnas

Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/ 

Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.

Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.

EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.

Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.

EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.

EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.


Kanal honetatik interesatuko zaizu: Euskara
Aldatu Gidoiak ere salatu du IB3 Balearretako telebista gaztelerazko filmak ematen hasi dela

IB3 telebista publikoaren neurria "katalanaren aurkako erasotzat" jo dute katalanaren normalizazioaren aldeko zenbait eragilek, eta "berehalako zuzenketa" eskatu dute. Zuzendaritza aldaketa izan da berriki kate publikoan, PP eta VOXen botoei... [+]


Jon Sarasua
“Ikusi behar dugu zenbateraino komeni zaigun sententzia judizialen akzio-erreakzio jokoan sartzea”

Euskararen biziberritzeari buruz asko hitz egiten ari azken urteetan eta horren inguruan ari da lanean Euskaltzaindiko talde bat. Talde horretan dago Jon Sarasua ere eta galdetu diogu zeregina zertan den. Galdetu diogu, halaber, udaberrian idatzi zuen Puprilusoko artikulu... [+]


CAF-Elhuyar sariak etetea erabaki dute, “baldintza egokirik” ez daudela arrazoituta

Zientzia-dibulgazioa saritzeko erreferentziazko sariak izan dira CAF-Elhuyarrekoak. Antolatzaileek 31. edizioa martxan zegoela etetea erabaki dute, "sariketa behar bezala egiteko baldintzarik ez dagoelako".


Konfrontaziora pasatzeko garaia da

Euskararen normalizazioaren motorrak herri dinamikara bueltatu behar du aurrera egin nahi badugu


Euskarak Euskal Herria behar du

Euskararen balizko etorkizunari buruzko ikerketa bat ezagutzera eman da berriki, eta zalaparta eragin du bertan irudikatzen den paisaia beltzak. Asaldamendu hori auzitan jarriz abiatuko dut nire ekarpena. Zergatik da harrigarria datu hori? Zein mundutan bizi gara, gure egoeran... [+]


2025-07-25 | Julen Orbea
Bilbon euskara jira ta Bira

Euskara badago Bilbon, baina non? Eta zertarako? Nork sortzen du euskarazko kultura, eta nork sostengatzen? Galdera horien aurrean, udalaren azken urteetako erabakiei begira, argiago ikusten da euskara eta kultura bizirik nahi ditugunontzat kezkagarriak diren erabakiak hartu... [+]


2025-07-25 | Ana Morales
Esan barik ez doalako

Sasijakintsua, jakineza eta franco txikia: horiexek dira aurrekoan Gotzon Lobera jaunak, Bilboko kale batzuen izenak aldatzeko ekimenaren kariaz, Deia egunkarian zuzendu dizkidan epitetoak. Ez du nire izena aipatu, egia, baina neu izan naizenez urte eta erdi luzeko borrokan... [+]


Udal legearen kontrako epai euskarafoboa
Euskararen aurkako erasoa salatu dute 200 alkate eta udal ordezkarik, eta hizkuntza bultzatzeko konpromisoa berretsi

Euskalgintzaren Kontseiluak deituta, Espainiako Auzitegi Gorenak joan den astean ebatzitako sententzia salatzeko prentsaurreko bateratua egin dute Bilbon. Sententzia "euskal gizartearen eta euskal erakundeen borondate demokratikoaren aurkako eraso zuzena" dela... [+]


Euskarafobia ari du beste behin Lizarrako Udalean

Lizarrako Udalak udarako antolatu dituen bost musika ikuskizunetan eta beste horrenbeste film emanaldietan bat bera ere ez da euskaraz izanen; datorren astean hasiko diren festen egitarauan haurrentzako ekitaldi bat dago euskaraz programatua, justu, erraldoi eta buruhandien... [+]


Desobedientzia praktikatzen

Hankak lurrean dituzte gure solaskideek. Euskalgintzaren eta herri mugimenduen joko-zelaian dabiltza etengabe eta eskarmentu horretatik hitz egiten dute euskarari eusteaz, hizkuntza zapalkuntza ez normalizatzeaz eta erdaldunengandik espero beharko genukeenaz. Gorka Torrek ez du... [+]


2025-07-23 | Patxi Saez Beloki
Euskara gara

Gu gara euskara. Euskara gure baitan bizi da. Guk biziarazten dugu. Euskara bizi dugu eta euskarak bizi gaitu. Guk elikatzen dugu eta gu elikatzen gaitu. Euskara gara. Euskara egiten dugunean euskarak egiten gaitu. Guk dugu, euskarak gaitu.

Euskararik gabe ez gara, eta hori... [+]


Donostiako auzitegi batek ebatzi du zaharren egoitzako langile denek ez dutela euskarazko B2 maila eduki beharrik

Euskarazko B2 maila dutela ez ziurtatzeagatik Eibarko Egogain zaharren egoitzako lan eskaintza publikotik kanpo utzi zituzten bi langileen alde ebatzi du Donostiako Lehen Auzialdiko 3. Epaitegiak, CCOOk jakinarazi duenez. 2024ko urrian, Gonzalo Pérez Sanz epaileak... [+]


Euskara, katalana eta galiziera ez dira momentuz hizkuntza ofizialak izango Europar Batasunean

Europar Batasuneko estatu kideen gehiengoak atzera bota du euskara, katalana eta galiziera EBn hizkuntza ofizialak izateko eskaera. Finantzazio eta arlo legalean hainbat "zalantza" dituztela plazaratu dute. 


2025-07-21 | ARGIA
Euskararen aldeko ‘jauzi’ baten alde mobilizatu dira Maulen, Donapaleun eta Baionan

Igande goizean elkarretaratzeak egin dituzte Euskal Herrian Euskarazek deituta, Geldi euskara zapaltzea! lelopean.


2025-07-21 | ARGIA
Euskararentzat eta euskaldunentzat justizia aldarrikatu dute milaka herritarrek udaletxeen aurrean

UEMAk antolatuta egin dituzte kontzentrazioak larunbat eguerdian, Espainiako Auzitegi Gorenaren azken epai euskarafoboaren aurka eta euskararen alde. Euskara “benetan” babesteko “adostasun sendoak” eskatu ditu UEMAk, “euskarak eta euskaldunok... [+]


Eguneraketa berriak daude