Hizkuntza Ingeniaritzan ibiltzen garenontzat arlo berri bat ireki da azken urteotan, Humanitate Digitalak. Historikoki konputazio zientziek ez dute interes handia jarri humanitateetan, eta alderantziz ere ez dira hurbilpen asko egon. Azken urteetan ordea, dokumentuen digitalizazio masiboarekin, sare sozialen eztandarekin eta hizkuntz teknologien hedapenarekin arloen arteko lankidetza abiadura biziz garatzen ari da. Esparru bien artean eremu berriak ere ireki dira ikerketari begira, esaterako baliabide digitalek jendartean sortzen duten eragina.

Giza eta gizarte-zientzietan ohikoak diren esperimentu kualitatiboetatik emaitza kuantitatiboetara eramateko aukera ematen ditu hizkuntz teknologiek, eta bestalde, humanitateek erronka berriak eskaintzen diete teknologoei. Historia, kultura eta literatura, kazetaritza, soziolinguistika, arkeologia eta beste jakintza arlo askotan aldaketa sakonak somatzen ari dira ikerketa metodoetan. Kritikak ere badaude: gutxiengoen bazterketa eskuragarri (ez) dauden datu edo baliabideetan, datuak enpresa erraldoien esku egotea eta ez denon eskura, emaitzen interpretagarritasun falta (teknologia kutxa beltza izan daiteke), moda izatea…

Teknologien aldetik hizkuntz teknologiekin batera beste teknologia batzuek hartzen dute parte arlo berri honetan, bisualizazio tresnak, dokumentazioko estandarrak eta bideo-jokoak esaterako. Hizkuntz teknologien aldetik oinarrizko teknologia batzuk (bilaketa-teknologia, informazioaren erauzketa…) ari dira aplikatzen testu berrietan. Europan Clarin ikerketarako azpiegitura sarea hedatu da arlo berri honi begira eta Ixa taldeak hartzen du parte bertan. Tresna orokor gisa Analhitza eskaintzen dugu norberak bere testuak prestatu eta analizatuta jaso ditzan.

Badakigu tresna orokorren aplikazio hutsak emaitza mugatuak eskaintzen dituela, hori dela-eta hainbat proiektu espezifiko garatzen ari gara IXA taldean, eta horietako batzuk aipatuko ditugu.

Linguistika historikoaren arloan Baionako IKER taldearekin batera BIM proiektua ari gara aurrera eramaten. Proiektuaren alde teknologikoan dagoeneko digitalizatuta dauden euskarazko testu historikoak antolatu, normalizatu, etiketatu eta ikerketarako egokituta eskaini ditugu. Horretan funtsezko gaia testu historikoen normalizazioa, garai batean erabiltzen zen grafia eta aldaerak gaur egungo idazkera ekartzen duena, ondoren bestelako tresnak (analizatzaile morfosintaktiko orokorrak gehienbat kasu honetan) erabili ahal izateko.

 Soziolinguistikan bi proiektu garatu dira gure inguruan, Twitterreko testuak iturritzat hartuta eta ikasleen amaierako lanetan oinarrituta, bat gazteen mintzagaiak eta sareak identifikatzeko, eta bestea corpus interesgarri bat sortzeko kode alternantziari (code switching) begira. Bi lanetako oinarrian Computational sociolinguistics: A survey.  izeneko artikulu interesgarria dago, azpiarlo honetarako ezinbesteko erreferentzia dena. Gazteen mintzagaien inguruan, adibidez ondoko taula interesgarria eskaintzen da aipatutako lanean :

Hezkuntza digitala hartzen ari den garrantzia ere gero eta nabarmenagoa da, baina eskolan eten digitala handia dago, eta orokorrean formazioa handia behar da teknologia modu pedagogikoan eta egokian garatzeko.  Ixa Taldean, Ikastolen Elkartearen laguntzarekin, eskolan erabilgarriak diren tresnetan ari gara lanean. Dagoeneko eskolako laburpenak jasotzeko eta irakaslearen ereduarekin konparatzeko web-zerbitzua (http://ixa2.si.ehu.es/compress-eus/) probatu da, 4 gelatako 100 ikasleren 400 laburpenekin. Irakasleak askotan itota ibiltzen dira eta ez da aukerarik egoten 25 ikasleren 100 laburpen-testu (edo bestelako) astero-astero zuzentzen ibiltzeko. Baina beharbada sistema automatiko batek erakuts liezaioke berak egindako laburpenetik zein urruntzen den gehien, eta horiei arreta gehiago jarri; edota ikasleak berak egindako laburpenaren feedback automatikoa izan dezake eta, ondoren, irakaslearen edota beste ikasle batzuen laburpen “egokiagoak” erakutsi.

Gure inguruan ere oso lan interesgarriak egiten ari dira heldu nahiko genituzkeen hainbat arlotan. Historian aukera handiak daude azken urteotan digitalizatutako testuak ustiatzeko. Adibide gisa  artikulu honetan (Whodunit. . . and to Whom? Subjects, Objects, and Actions in Research Articles on American Labor Unions) Vilja Huldenek analisi sintaktiko automatikoa erabiltzen du lan munduaren soziologia historikoan ikertzeko. Nork, nori, zer, non, noiz identifikatzea datuetan oinarritutako kazetaritzaren funtsean dago. Arkaitz Zubiagaren lana azpimarragarria da arlo horretan, Korrikaren inguruko argitalpen honetan egiaztatu daitekeen moduan. Hainbat oinarrizko teknologia erabiliz eta konbinatuz oso emaitza interesgarriak lortzen ditu, adibidez gaiaren inguruko sare hau:

Argazkia: Ekaia

Edonola ere susmoa dugu Humanitate Digitalek duten potentzia baliatzeko hasieran gaudela, eta Euskal Herrian aukera handiak ditugula lan interesgarriak aurrera eramateko. Horretarako beharrezkoa litzateke aipatutako arlo guztien artean lankidetza handitzea ingurune digitalean. Administrazioaren laguntza ere ez litzateke gaizki etorriko.

 

* Eskerrik asko Mikel Iruskieta (@iruskieta_m) gure lankideari artikulua ontzen emandako laguntzarengatik