Abdoulaye Diack, programmi juht Google Research’is – Google'i üksusest, mis on pühendunud arvutiteaduse tipptaseme edendamisele ja nende avastuste rakendamisele reaalsetes probleemides – räägib WAXALi algupärast, Google Research Africa avatud koodiga kõneandmete kogumikust, alustades üheainsa sõnaga.
„WAXAL tähendab „rääkimist“,” ütles ta TechCabalile, viidates selle juurtele Wolofi keeles, mis on laialdaselt leviv keel Senegambia piirkonnas.
Google’i Senegaliest pärit teadusjuhi Moustaph Cisse poolt 2020. aastal valitud nimi peegeldab suuremat tõde Aafrika AI-teekonnast: kontinendil, kus on rohkem kui 2000 keelt, millest enamikku räägitakse pigem kui kirjutatakse, ei ole hääl mitte valikuline, vaid võtmepunkt.
Aastaid on digitaalne tehnoloogia keskendunud kirjaoskusele, klaviatuuridele ja tekstile. Kuid Aafrikas elab keel vestluses, turudel, taludel, kliinikutel ja kodudes. AI, mis ei suuda hääli, intonatsiooni ega koodivahetust tõlgendada, ei saa tähenduslikult teenindada enamikku Aafriklastest. WAXAL soovib seda muuta. Selle asemel et keskenduda üksnes tekstitõlkele, loob projekt madala ressursiga Aafrika keeltes rääkimisest rääkiva AI jaoks alustava infrastruktuuri, keskendudes suure, kvaliteetse keelelis-„tooraine“ hubi loomisele.
„AI, mis suudab meie keeles rääkida ja meid mõista, olgu see siis meie aktsent või intonatsioon, on tegelikult üsnagi oluline,” ütles Diack.
Väljakutse algab jõhkralt tasakaalustamatusest. Rohkem kui 50% kõigist veebisaitidest on inglise keeles ja veel mõnedes läänekeeltes. Aafrika enam kui 2000 keelt on globaalsetes digitaalsetes andmekogudes vaevu märgatavad. Enamik neist on veebis alaesindatud. Paljud neist pole laialdaselt kirjutatud. Mõned ei ole üldse standardiseeritud.
Kui AI-mudeleid õpetatakse digitaalse tekstiga ja digitaalset teksti Aafrika keeltes on vaevalt olemas, siis alustab kontinent AI-võistlust struktuuriliselt ebasoodsas olukorras.
„See ei ole uus probleem,” ütles Diack. „Teadlased on teadlikud sellest tohutust andmevahest.”
Ilma andmeteta ei saa mudeleid õpetada. Ilma õpetatud mudelitega ei suuda AI-süsteemid kuulata, tõlkida valesti või ignoreerida terveid populatsioone. Diack meenutab levinud pettumust: rääkides frankofoonses Aafrika aktsentis, kui AI-märkmikusüsteem temast raskesti aru saab. Tehnoloogia on olemas, kuid see ei ole kohandatud kohaliku konteksti jaoks.
Seda lünka soovib WAXAL sulgeda.
Pärast kolmeaastast arendustööd käivitati WAXAL ametlikult 2026. aasta veebruaris ning see tootis seni ühe suurima Aafrika keelte kõneandmete kogumi: enam kui 11 000 tunni salvestatud kõnet ligi 2 miljonilt individuaalselt salvestatud kõnest, hõlmates 21 Saheli allpool asuvat Aafrika keelt, sealhulgas Hausa, Yoruba, Luganda ja Acholi.
Lisaks üldisele kõne kogumisele on Google investeerinud üle 20 tunni kvaliteetset stuudiosalvestust, et arendada loomulikku heli omavate sünteetiliste häälte loomist häälsoovitajate jaoks. Need „stuudiopremium“ salvestused on loodud, et AI-vastused tunduksid vähem robotlike ja rohkem kultuuriliselt autentsed.
Google struktureeris algatuse partnerlusmudelina. Uganda Makerere Ülikool ja Ghana Ülikool juhatasid suurt osa andmete kogumist. Kohalikud partnerid säilitavad andmekogude omandiõigust, mis on avaldatud avatud lähtekoodiga litsentsidega, mis võimaldavad kommertskasutust.
„Me oleme põhiliselt pakkunud juhiseid ja rahastust,” selgitas Diack. „Kogu see andmekogu ei kuulu meile. See kuulub partneritele, kellega koostööd teeme.”
Ambitsioon ei ole lihtsalt Google’i enda toodete toitmine, vaid ökosüsteemi kasvatamine.
Väljalaskmise järel mõne päeva jooksul registreeriti andmekogus üle 4000 allalaadimise, mis oli Diacki sõnul varajane märk uurijate ja arendajate vastuvõtust.
Google pakub juba tõlketööriistu mitmes keeles. Miks siis alustada nullist?
Sest tõlge ei ole rääkimine.
Klassikaline masintõlge tugineb „paralleelsetele tekstidele” – ühes keeles kirjutatud lausetel, mis on joondatud teises keeles vastavate lausetega. Madala ressursiga keelte puhul on selliseid paralleelseid korpusi vaevalt olemas. Ja isegi kui tõlge töötab, ei lahenda see sügavamat probleemi: paljud Aafriklased suhtlevad tehnoloogiaga peamiselt rääkides.
„Paljud inimesed kontinendil tegelikult ei oska lugeda ega kirjutada,” ütles Diack. „Hääl on põhimõtteliselt värav tehnoloogiasse.”
Kujutlege farmerit Kadunas, kes küsib Hausa keeles ilmateate kohta. Või ema Ghanas maapiirkonnas, kes otsib oma kohalikus keeles toitumisnõuandeid. Tekstipõhised süsteemid eeldavad kirjaoskust ja standardiseeritud õigekirja. Häälsüsteemid peavad hakkama saama murdekeeltest, slängist, koodivahetusest ja ebatavalistest kõneviisidest.
Ghanas tootis kõnetuvastuse projekti UGSpeechData üle 5000 tunni audiodata. See algatus võimaldas hiljem kohalike keelte toimivat emakasünnitusabi chatboti arendamist. Samuti laienes töö ebatavaliste kõneviisidega, aidates kaasa kurdide ja insuldi tagajärjel kannatanute kogukondadele, kelle kõneviisid pahatihti segavad mainstream AI-süsteeme.
„AI-süsteemid ei ole selleks kohandatud,” ütles Diack. „Kui teil on erinevaid kõneviise, on tõenäoline, et süsteem ei saa teid mõista.”
Google ei ole selles võidujooksus üksi.
Masakhane, rahvalik avatud lähtekoodiga teaduskollektiiv, on ehitatud tõlkesüsteeme enam kui 45 Aafrika keelele ja arendanud Lulu’d, Aafrika keelemudelite hindamiseks mõeldud benchmarki. Nende filosoofia on kogukonna esmatähtsus ja täielik avatus.
Lõuna-Aafrika Lelapa AI, mille asutasid endised DeepMind’i teadlased, keskendub kommertslise Natural Language Processing (NLP) toodetele Aafrika ettevõtete jaoks. Selle lipulaevamudel Vulavula haarab isiZulu, Sesotho ja Afrikaansi murdekeeli ja linnalist koodivahetust. Lelapa rõhutab „põhjapanevaid” andmekogusid ja põhjalikku inimvea analüüsi – kulukat, kuid kõrge täpsusega lähenemist.
Etiopias on Lesan AI ehitanud ühed kõige täpsemad tõlkesüsteemid Amharicile, Tigrinya ja Oromole, kasutades inim-käivituse mudelit, et tagada kultuuriline nüanss.
Meta No Language Left Behind (NLLB-200) projekt võtab massiivse lähenemise, tõlkides 200 keelt, sealhulgas 55 Aafrika keelt, kasutades null-sammuga õppimist. Microsoft aga integreerib Aafrika keeled Microsoft Translatorisse ja investeerib mitme modulaarsesse põllumajandusandmekogusse Gecko projekti kaudu.
Gates Foundationi rahastatud African Next Voices algatus käivitati 2025. aasta lõpus, tootes 9000 tundi kõneandmeid 18 keeles.
Ökosüsteem on mitmekesine: avatud lähtekoodiga kollektiivid, kommertssüsteemid, suured tehnoloogiahiiud, heategevuslikud rahastajad. Igaüks lähenemist probleemile erinevalt: mastaap versus sügavus, tekst versus hääl, avatud versus proprieetiline.
Google’i eripära seisneb tema häälteküllases, ökosüsteemikeskse lähenemises.
Kuid globaalsete tehnoloogiahiiude osalemine tekitab paratamatult küsimusi andmesõltuvuse ja sõltuvuse kohta.
Kui Google koordineerib mitmekeelsete kõneandmete avaldamist, kas see loob struktuurse sõltuvuse Google’i toodetest? Kas kohalikud arendajad võivad muutuda sõltuvaks Gemini, Search või Androidi sisse ehitatud tööriistadest?
Diack tunnistab pinget, kuid hoiatab, et ärrituma ei peaks nii, et midagi ei tehta võimalusest, mis on esitatud.
„Kõige olulisem on see, et me ei jääks tahaplaanile,” ütles ta. „Ma kindlasti ei taha, et minu andmeid kuritarvitataks. Aga see on ettevõtjate, idufirmade ja teadlaste võimaluse loomine töötada andmetega, mis on tõesti olulised.”
Ta tõstab paralleele Ühendriikide ja Euroopa ülikoolide ning tehnoloogiaettevõtete vaheliste partnerlustega. Koostöö kiirendab võimekuse arendamist, väidab ta. Juba on varajastes projektides osalenud teadlased avaldanud artikleid ja edenenud globaalsetesse teadusrollidesse.
Avatud litsentsimudel on selle väite keskmes. Arendajad saavad WAXALi andmekogude pinnal luua kommertstooteid, sõltumata Google’i proprieetilistest API-dest. Google on samuti välja andnud avatud kaalu tõlgemudelid nagu Translate Gemma, mida saab iseseisvalt alla laadida ja fine-tuneerida.
Kas see tasakaal kriitikuid rahuldab, jääb nägemata. Kuid keelelõhe suurus viitab, et tegevusetus võib tuua kaasa suuremaid riske.
Hääle AI ei eksisteeri isoleeritult. See vajab ühenduvust, ribalaiust ja arvutusinfrastruktuuri.
„Tõesti ei saa AI-mudeleid õppida ilma õige infrastruktuurita,” ütles Diack.
Google on investeerinud merealustesse kaablitesse, sealhulgas Equiano kaabli maandumisse Nigeerias ja teistes Aafrika turgudel, et tugevdada lairiba vastupidavust. Viimaste aastate fiiberkatkestused paljastasid regionaalsete võrkude haavatavuse. Redundantne, suure võimsusega infrastruktuur on vajalik mitte ainult pilveteenuste jaoks, vaid ka kohalikeks andmekeskusteks, mis on digitaalse sõltumatuse võtmepiilar.
AI arendamine sõltub kolmest alust: inimestest, andmetest ja infrastruktuurist. Aafrika noor populaatioon, mille osakaal maailma AI-kasutajatest peaks tulevastel aastakümnetel suureks tõusma, pakub demograafilist eelist. Kuid ilma investeeringuteta teadusvõimekusse ja digitaalsesse infrastruktuuri ei muutu demograafiline potentsiaal tehnoloogiliseks juhtpositsiooniks.
Fragmentatsiooni vältimiseks on Google liikunud üksikute ülikoolipartnerluste asemel koordineeritumate koostöömudelite poole. Üks selline püüdlus on koostöö Masakhane keelehubi ja teiste vabatahtlike võrgustikega, et võimaldada teadlastel ja idufirmadel taotleda rahastust ja panustada ühiskasutatavatesse andmekogudesse.
„Kui me kõik teeme kontinendil oma asja, ei ole see efektiivne,” ütles Diack. „Vajame koordineeritud pingutust.”
Seni on WAXAL hõlmanud 27 keelt, sealhulgas nelja Nigeeria keelt. Mõned juba hõlmatud keeled on Acholi, Akan, Dagaare, Dagbani, Dholuo, Ewe, Fante, Fulani (Fula), Hausa, Igbo, Ikposo (Kposo), Kikuyu, Lingala, Luganda, Malagasy, Masaaba, Nyankole, Rukiga, Shona, Soga (Lusoga), Swahili ja Yoruba.
Ambitsioon katta kõiki üle 2000 Aafrika keelt on ambitsioonikas, ehk isegi põlvkondlik.
„See on minu unistus,” ütles Diack.
Kuid prioriteedid loevad. Ta viitab haridusele, põllumajandusele ja tervishoidule kui kriitilistele valdkondadele, kus hääl-AI võib anda mõõdetava mõju, mis on kooskõlas kestliku arengu eesmärkidega.
Google Search’i integreeritud ilmateade, mis on parendatud Aafrika teadusalgatuste abil, demonstreerib juba globaalset spillover’it. Põlduhaiguste tuvastamise projektid nagu PlantVillage Nuru, mis on välja töötatud Penn State Ülikooli, Rahvusvahelise Tropikaalse Põllumajanduse Instituudi (IITA) ja Rahvusvahelise Põllumajandusuuringute Konsultatiivgrupi (CGIAR) koostöös, on mõjutanud põllumajanduslikku AI-d kaugemale Aafrikast. Need eeskuju näitavad, et Aafrikale loodud lahendused võivad globaalselt laieneda.
Kõneandmete kogumine madala ressursiga keskkondades on kulukas. Väljasalvestused, transkriptsioon, lingvistiline valideerimine ja stuudiokvaliteediga häälte süntees nõuavad püsivat rahastust.
Google’i investeering on osa laiemast tööstusharu üleminekust saadaval oleva teksti kraapimiselt originaalsete kõneandmete investeerimisele. Lelapa AI inim-käivituse verifitseerimismudel rõhutab täpsuse maksumust. Meta FLORES-200 andmekogu põhines professionaalsetel tõlkidel. Microsofti põllumajanduslikud hääl-algatused hõlmavad tuhandeid kommenteeritud videoid.
Kvaliteet loeb. Sünteetilised hääled peavad kõlama loomulikult. Tuvastussüsteemid peavad toime tulema koodivahetusega. Linnakõne segab sageli inglise keelt, kohalikke keeli ja slängi samas lauses.
Aafrika AI-d ei saa ehitada üksnes automatiseerimise kaudu; see nõuaks kultuurilist ja lingvistilist ekspertiisi.
Diacki jaoks ei mõõdeta edu üksnes toote integreerimisega.
„Ma tahan näha idufirmasid, kes kasutavad andmekogu kohalike keelte teenuste pakkumiseks,” ütles ta. „Ma tahan näha teadlasi, kes kirjutavad artikleid meie keeltes, mitte ainult inglise keeles.”
Kuid lõpuks peab Google’i loodud uks viima kuhugi käegakatsutavasse. See hõlmab Google’i tooteid – Search, Gemini, häälsoovitajaid, mis suhtlevad voolavalt Yoruba, Wolof, Hausa või Luganda keeles. Kuid see hõlmab ka iseseisvaid idufirmasid, kes loovad finantsteenuste tööriistu, tervishoiu chatboteid või põllumajanduslikke nõustamissüsteeme.
Kui midagi, siis sõltub Aafrika AI tulevik sellest, kas hääl saab võrdustava jõu või järjekordse möödapaneku. Kui rääkimist jääb globaalsete süsteemide poolt tunnustamata, jäävad miljardid igapäevaselt kontinendil räägitud sõnad digitaalselt nähtamatuks.


