EusCrawl, euskarazko hitzen korpus erraldoia

  • EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2022ko martxoaren 24an - 09:10

Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/ 

Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.

Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.

EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.

Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.

EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.

EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.


Kanal honetatik interesatuko zaizu: Euskara
2024-10-08 | Julene Flamarique
Euskararen “larrialdi egoerari” aurre egiteko mobilizazioa deitu du EHEk Durangon

Euskal Herrian Euskarazek manifestazio nazionala deitu du abenduaren 7an. "Hizkuntza larrialdiaren aurrean Euskararen Errepublika eraikitzea beharrezkoa" dela aldarrikatu du mugimendu euskaltzaleak. Mundu mailako eskuin muturraren hazkundeari “euskaratik eta... [+]


Beste epai euskarafobo bat: Gipuzkoako aterpetxeetako garbitzaileen aurkakoa

Donostiako auzitegiak Gipuzkoako Foru Aldundiko aterpetxeetako garbitzaileen lanpostuen prozesuaren harira sententzia eman du: lanpostu guztietarako hizkuntza eskakizuna ezartzea “proportzioz kanpokoa eta diskriminatzailea” dela dio. CCOO sindikatuak eman du... [+]


2024-10-07 | Leire Ibar
Kontseiluak positiboki baloratu du epaitegiek atzera bota izana UGTk Euskotreneko langileen euskara maila jaisteko jarritako errekurtsoa

UGT sindikatuak B2 maila ezartzearen aurka egin zuen. EAEko Justizia Auzitegi Nagusiak Euskotreneko hautaprobetarako ezarritako euskara eskakizunak ontzat hartu ditu. Kontseiluak esan du, hizkuntza eskubideen defentsan “urrats garrantzitsua” eta “berri... [+]


Euskaragatik bazterturiko euskaldunak

Euskal Herriko lurralde batzuetan euskara ofiziala da, besteetan meridianoaren arabera ofiziala ala ukatua eta, aitzitik, ipar aldera bagoaz, toleratua (ez ofiziala).

Azken boladan, epaitegi batzuk ebatzi dute funtzionario publikoek ez dutela euskara ezagutzarik izan behar eta,... [+]


2024-10-02 | Leire Ibar
Baxoan ahozko proba euskaraz egiteko eskubidea bermatu zuten irakasleak, ikerketapean

Uda aurretik, irakasle talde batek ekimen bat jarri zuen martxan ikasleek proba euskaraz erantzun ahal izateko. Kazetak adierazi duenaren arabera, orain gertatutakoa ikertzeko prozesua zabalik dago.

 


2024-10-01 | Leire Ibar
Aldatu Gidoiak salatu du ETBk gaztelerari lehentasuna eman diola berriro ere

Mugimenduak mahai gainean jarri du euskarazko edukiak sustatzeko beharra, eta horren aurrean ETBk duen interes falta. Lehentasuna gaztelaniazko saioei ematea egotzi dio. ETB emozioen festa izan dadin, aldatu gidoia euskararen alde! lelopean, aldaketa eskatu dio telebista... [+]


Zaintza eta euskara: “Korapilo handia” askatzeko tresnak bilatzen

Euskalgintzaren Kontseiluak Zaintza eta euskara. Sareak eraikitzen jardunaldiak egin ditu irailaren 26an, Donostian. Idurre Eskisabelek, Kontseiluaren idazkari nagusiak, lehen hitzaldian adierazi du “urgentziazkoa” dela gaiari heltzea. Jardunaldien helburua ez da... [+]


Nafarroako Gobernuak administrazioan sartzeko euskara baloratzeko merezimenduen dekretua onartu du

Premiazko txostena eskatu dio Nafarroako Kontseiluari. Behin betiko onartzeko aurretiazko urratsa da, Nafarroako Justizia Auzitegi Nagusiak aurreko dekretuaren zati batzuk baliogabetu eta bost urtera.


Migratzaileei hizkuntza harrera egiteko jardunaldiak egingo dituzte Gasteizen

Urriaren 10 eta 11n Gasteizko Europa Jauregian egingo dira Euskalgintzaren Kontseiluak eta Eusko Jaurlaritzaren Hizkuntza Politikarako Sailburuordetzak lankidetzan urtero antolatzen dituzten jardunaldiak.


2024-09-26 | ARGIA
Realeko entrenatzaileak euskaraz jarraitu zuen, zenbait kazetari frantziar kexatu arren

Realeko futbol taldeko entrenatzaile Imanol Alguacilek, Nizan, Europako Ligako partiduaren aurretik eskainitako prentsaurrekoan euskarazko hedabideei euskaraz erantzuten ari zela, hainbat kazetariren kexa entzun behar izan du. Duela astebete antzeko egoera gertatu zen... [+]


Materialismo histerikoa
Ezin dute euskara ikasi

Ama da, Perukoa, eta ezingo luke euskara zerotik ikasten doan hasi, egunkarietan irakurri dugun moduan (gezurra zen): hemen agian bai, gurean udalak bermatzen duelako eskubide hori (Hernani). Etortzen bazait ikasturtea amaitutakoan (etorri zaizkidan moduan), alabarekin udan zer... [+]


2024-09-25 | Aingeru Epaltza
Zenbatek?

"Zenbatek egingo du euskaraz 2075. urtean?”. Izenburu asaldagarria du Kike Amonarrizek prentsan berrikitan argitaratu duen artikuluak. Euskal Herrian baino lehenago, galdera halakotsua egin dute Katalunian. Joan M. Serraren L’ús parlat del català... [+]


Eguneraketa berriak daude