ARGIA.eus

Itzulpen automatikoa / Machine translation

Umap hil da, akabo Twitterreko euskarazko biltegia

  • Umap Twitterreko euskarazko jardunaren biltegia 2010eko urrian hasi zen martxan, CodeSyntax-en eskutik. 2023an, hil egin da. Elon Musk-ek hil du, berak zer garen eta nor garen ez dakien arren. Umap-en hainbat zerbitzuren oinarri izan da, euskarazko txiolarien, hedabideen eta traolen rankingak eta bildumak egin ditu hainbat urtez; azterketa soziolinguistikoak egiteko balio izan du, Sustatun albiste komentatuak automatikoki gehitzeko balio izan du, TBX zerbitzuaren oinarri izan da euskarazko bideo partekatuenak identifikatzeko... Zerbitzu horiek guztiak ere hil dira.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2023ko ekainaren 30an - 07:21

Umap txio bilatzailea 2010eko urrian hasi zen martxan. Hamabi urte eta erdi egin ditu lanean, eta tartean bildu dituen txioak dira izan 77.132.,076. Horietarik erdia baino gutxixeago, 28.618.588 euskaraz, 27.019 erabiltzailerenak.

Euskarazko elkarrizketaren artxiboa

Urterik urte detektatu eta analizatu ditugun euskarazko txioak hauek izan dira:

Urtea Kopurua

----------------------

2007 -> 1.375

2008 -> 2.816

2009 -> 20.009

2010 -> 51.105

2011 -> 181.516

2012 -> 849.758

2013 -> 2.328.085

2014 -> 2.712.375

2015 -> 2.809.217

2016 -> 2.791.263

2017 -> 2.761.630

2018 -> 2.525.394

2019 -> 2.536.645

2020 -> 3.111.935

2021 -> 2.727.630

2022 -> 2.280.831

2023 -> 927.057

Umap 2010ean hasi arren lehenagoko txioak ere badaude datu-basean. Nolatan? erabiltzaile berri bat detektaturikoan, euskalduna zen ala ez erabakitzeko metodo bat izan da atzeranzko 200 txio eskatzea eta horietan euskara bazegoen ikustea. Lehen urteetako erabiltzaile batzuen historiala lehenagora ere iristen zen ondorioz, 200 txio horietan. Bilketa eta sailkatze hauek programatikoki egin dira beti.

Datu horiekin euskara nola erabili izan den aztertu dugu urterik urte, txostenak argitaratuz. Traolen kontaketa egin dugu, gehien partekatzen ziren URL-en zenbaketa eta analisia ere bai (iturrien analisiak).

Informazio eta albiste trukearen jarraipena

Txioetan zabaldutako esteka edo URL-ak analizatzetik beste zerbitzu bat asmatu genuen: albistegi automatikoa, integratu zena 2012ko abuztuan Sustatun, eta gerora Saretik berrizendatu genuena. Horrela funtzionatzen zuen honek:

  • Umap bidez, loturak zituzten euskarazko txioetan, loturak analizatu.
  • Haien eduki puska bat eskuratu, snippet bat esaten dena irudi kaptura batekin, eta hori ere euskaraz zen erabaki.
  • Lotura jakin batek txio kopuru minimo bat eta garrantzi-algoritmo bat gainditzean, Sustatun argitaratu automatikoki.
  • Hauen artean batzuk, editoreak berrikusita, azalera eraman.

Era honetan 7.334.784 lotura analizatu ziren, euskarazko 24.901.637 txiotan oinarrituak. Horietarik, Sustatura pasatu ziren argitaratzeko 32.247 albiste, urtez urte honela:

Urtea Kopurua

---------------------

2012 -> 1.135

2013 -> 4.155

2014 -> 3.836

2015 -> 3.962

2016 -> 4.275

2017 -> 4.119

2018 -> 2.904

2019 -> 1.792

2020 -> 2.704

2022 -> 1.344

2021 -> 1.754

2023 -> 267

Albiste horietarik bakoitzak gehituta ditu txio-kateak ikusteko erabiltzaileek nola iruzkindu zituzten.

Bideo partekatuen aro oso bat

Aurreko zerbitzuaren luzapen gisa, partekaturiko edukietan, esteketan, bideoak gero eta nabarmenago zirela ere ikusi genuen Umap-i esker. Horrela, Youtubeko bideoan bilketa bat egiten hasi ginen (API egokia zuelako plataforma horrek, besteek ez bezala), eta TBX.eus zerbitzua jarri genuen martxan 2017ko urtarrilean.

Ia 50.000 bideo detektatu eta analizatu ziren horrela, eta euskarazko edukia zutela determinatzen genuen; gero ikuskapen / partekatze parametro batzuk gainditzen zituztenak, artxibora zihoazen, eta ikuskatuenen rankingaren arabera antolatu. 36.727 bideo daude horrela 2017 eta 2023 artean TBX-ren artxiboan gordeta. Adibidez, iazko uztailean, zer izan zen ikusiena euskaraz Youtuben? Hauxe.

2023ko martxoan Umap gelditzearekin hori ere gelditu zen, gertatzen dena da Youtube kanal batzuen edukia automatikoki kargatzen jarraitu duela... Baina osagarri sozialik gabe, partekatze-daturik gabe, zerbitzu horren jarraipena ere birpentsatu beharko dugu.

Jarraipena

2023ko martxoaren 14an gertatu zen geldialdia, Twitterrek bere API irekiak itxi zituenean. Eguneko azken txio interesgarriak egun horretan daude, izoztuta, Umap-eko portadan.

Harrezkero, azterketa tekniko batzuetan jardun izan dugu CodeSyntax-en. API baldintza berriek, ordainpekoak, ahalegina merezi zuten? Ezezko ondoriora iritsi gara. Twitterreko APIaren baldintza berrietan, Pro kontua beharko genuke, gutxienez, 12 urtez egunero egin duguna egiten jarraitu ahal izateko, hileko 5.000 dolarreko tarifa duen zerbitzu bat.

Asmo akademikoz, ikerketarako-edo, justifikatuko bagenu eskaera bat berriz lanean uzteko, hori ere alferrik litzateke. Ekainean API akademikoak murriztu egin dituzte, eta hori erabiltzen zuten zientzialari sozial eta datu-biltzaileei berdina eskaini die Twitterrek: 5.000 dolarreko tarifa.

Bildutako 70 milioi txioak, 33.000 albiste euskaraz komentatuak, 36.000 bideoak ranking eta data bidez sailkatuak... Horiek gordetzea merezi du? Bai, dudarik gabe, dela datu-base gordun gisa etorkizuneko artxibategietarako, dela kontsulta tresna gisa, Umap eta TBX.eus itxi edo izoztu arren ere, beren edukia gordetzeko konpromisoa hartu dugu. Hori ondo antolatzen saiatuko gara aurrerantzean.

Bitartean, Sustaturi dagokionez, are gehiago zaildu dizkio gauzak Twitterrek etxe honi martxoko geldialditik: azken asteetan, txioak automatikoki bidaltzeko sistema desaktibatu dute, eta baita erabiltzaileentzako login egiteko modua. Horiek ere konpondu beharko ditugu, nolabait.

Twitter, polita izan da iraun duen bitartean, eta ez alferreko lana izan egindakoa. Elon Musk, zoaz pikutara. 


Kanal honetatik interesatuko zaizu: Euskararen erabilera
Jaime Altuna. EHU-ko irakaslea eta ikerlaria
"Euskararen auzia nerabeena baino gehiago da helduena"

Jaime Altunak Hizkuntzaren funanbulistak. Hizkuntza-sozializazioa kirol eremuan adin eta generoan ardaztuta doktoretza tesia uztailean bukatu du. Gaiaren ezagutza sakonetik eta aurrez beste ikerlariek idatzitakotik hurbildu da begirada berezi bezain zorrotzaz Gipuzkoako zenbait... [+]


Biarritzeko turismo-audiogidetan euskararen arrastorik ez

Audiogidak frantsezez, alemanez, ingelesez eta gaztelaniaz daude. Biarritzeko turismo bulegoko zuzendari Genevieve Fontainek argudiatu du euskara ez dela “berehalako eskarietako bat”.


Jon Zapata, 'Haurren aurrean helduok heldu' ekimenaren koordinatzailea
“Haurrek ulertzen dute euskara haurren hizkuntza izanen dela”

Haurren aurrean helduok heldu ekimena urriaren 19tik 29ra egingo da Hego Euskal Herriko 80 herritan. Protagonistak, batez ere, gurasoak izango dira eta bi helburu azpimarratu ditu Euskaltzaleen Topagunea antolatzaileak: batetik, gurasoek hizkuntza ohiturak aldatzeko pausoak... [+]


Iñigo Urrutia
"Gaztelania eta frantsesa armen bidez inposatu zituzten Euskal Herrian"

Euskarafobia legalaren historia legez lege eta arauez arau aztertu du Iñigo Urrutiak (1966, Jatabe-Maruri), Xabier Irujorekin batera. Horren emaitza da Historia Jurídica de la Lengua Vasca (1789-2023) liburu mardula. Irujo atzerrian zegoenez, Urrutiarekin mintzatu... [+]


Eguneraketa berriak daude