Algoritmo hitza gero eta ohikoagoa da irakurtzen ditugun testuetan. Azken urteetan, adimen artifizialaren garapenarekin, algoritmoak ahalguztidunak direla dirudi. “Algoritmoak behar bezala iragarri zuen birusa Txinako eskualdetik Bangkok, Seúl, Taipei eta Tokiora pasatuko…[1][2] moduko esaldiak gero eta sarriago irakurtzen ditugu.

 

“apolitik_algorithm” ApolitikNow egilearena eta CC BY-NC-ND 2.0 lizentziaduna

 

Garai batean, berriz, algoritmo hitza zerbait xumeagoa zen. Wikipediaren arabera algoritmoa argibideen segida mugatua da, arazo bat konpontzeko urratsez urratseko prozedura. Ongi definitutako argibideen zerrenda bat jarraituz ataza bat burutzea erdiesten da. Baldin eta Errepika/Bitartean egiturak dira algoritmoen gakoa. Kepa Sarasolak 1984 urtean idatzitako liburuan [3] primeran islatzen da ideia hori.  Algoritmoa programazio-lengoaia baten arabera idatzita lortzen da aplikazio bat sortzea, eta hori izan da informatikarien zeregin nagusia urte askotan. Aplikazioak paketatzen joan dira,  kontabilitate-programetatik ERPetara, testu-editoretatik bulego-paketetara… Datuak ere pilatzen joan dira, fitxategi lauetatik datu-base konplexuetara pasaz, eta metadatuak gehituz. Bilakaera horretan algoritmoak zehatzak izaten jarraitzen zuten, aurreikusitakoa egin behar zuten, eta akatsak agertzen zirenean errua diseinu/programazio/datu-bilketa fasetan bilatu behar zen [4].  Errorerik ezean algoritmo horiek gizakiak baino hobeto lan egiten dute, azkarrago eta zehaztasun handiagoarekin, makinek kalkulurako eta errepikapenerako duten abiadura dela-eta.

 

Baina horrekin zaila da konplexutasun maila batetik aurrera joatea: gaixotasunen detekzioa, objektuen identifikazioa eta itzulpen automatikoa bezalako atazak, adibidez, ezin ziren ondo ebatzi. Ataza horien guztien ezaugarri nagusia ezagutzaren izaera da, ezagutza difusoa baita, eta ezagutza hori ezin da Baldin/Errepika egituren bidez bakarrik adierazi, inork ez baitaki algoritmo zehatza zein den. Ataza horietan aurrera egin ahal izateko paradigma-aldaketa gertatu zen, ikasketa automatiko izeneko paradigma berria etorri zen-eta. Metodo matematiko konplexuetan dago oinarrituta (aurreprogramatutako paketetan, software librekoak askotan), eta datuak dira gakoa [5]. Adibidez, gaixotasun baten detekzioa egiteko espediente medikuetako informazioa biltzen da, gaixotasuna garatu duten eta garatu ez duten pertsonen datu asko eta askorekin. Horretan oinarrituta sailkatzaile bat ikas daiteke, datu berriak emanda gaixotasuna garatzeko probabilitatea kalkulatzeko ahalmena duena. Ohiko algoritmoetan ez bezala, halakoetan ezin da espero emaitza zehatzak izatea, errore-tarte bat dago beti, horixe baita aipatutako ataza adimentsuen ezaugarria. Ikasketa sakonak urrats bat gehiago eman du paradigma honetan, metodo matematiko konplexuagoekin errore-tarteak laburtuz eta datuen beharra murriztuz. Arlo hauetako informatikari askoren lana algoritmoa hautatzea, datuak biltzea eta “garbitzea” eta sistema ondo trebatzea da, algoritmoak garatzea baino. 

 

Ikasketa automatikoan oinarritutako algoritmo horiei adimendun esaten zaie, eta askotan beren helburua da pertsona adituen mailara ahalik eta gehien hurbiltzea. Itzultzaileek, medikuek edota dokumentalistek egiten dituzten lanak egitea,… Click To TweetEsan bezala emaitzak askotan ikusgarriak baina arazoak badaude. Alde batetik aipatutako errore-tartea dago, ataza batzuetan onargarria izan daitekeen bitartean, beste batzuetan onartezina da, Minority Report filmean irudikatutako atxiloketa prebentiboak [6] esaterako. Beraz, erabilpenarekin arreta handia jarri behar da, eta erabakia teknikoa baino etiko eta politikoa da. Aurpegien ezagutza masiboa da ezbaian dagoen erabilpen horietako bat [7]. Orokorrean sistema hauetan giza gainbegiratzea behar da, baina erabilpen okerrak ohikoak dira.

 

Baina, berezko duten errore-tarteaz gain, beste arazo bat dago eta aipatutako datuekin dago lotuta. Askotan datuetan alborapena (bias ingelesez) gertatzen dira, eta horrek sistemak lortuko dituen emaitzak baldintzatuko ditu. Aurreko artikulu batean, honetaz aritu ginen [8][9]: jendartean dauden aurreiritziz kutsatuta daude makinak ere, hala nola arrazakeria eta sexismoa. Denbora luzez datuen kantitateari eman zaio garrantzia, baina gero eta argiagoa da kalitatea zaindu egin behar dela. Aipatu den datuen “garbiketa” gero eta funtsezkoagoa da, fase horretan saihestu behar direlako alborapenak.

 

Bi motako algoritmoak daude beraz, eta erroreak identifikatzeko eta zuzentzeko lana oso desberdina da. Informatikarien lana ere oso desberdina da algoritmo motaren arabera, eta bigarren motako lan-esparruari izen berriak jartzen ari zaizkio: adimen artifiziala eta datuen zientzia/ingeniaritza.

 

Aurreko bidalketa

[Podcast] Adimen Artifiziala robot esperimentuekin

Hurrengo bidalketa

[Podcast] Estilo-gida: Nola idatzi behar dut Wikipedian?

Egilea

Iñaki Alegria

Iñaki Alegria

@inakialegria
Iñaki Alegria EHUko Informatika fakultateko irakasle-ikerlaria da. Hizkuntzaren prozesamenduaren arloan ikertzen du, IXA taldearen baitan. UEUko zuzendaria da momentu honetan.

Iruzkinik ez

Utzi erantzun bat

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude