Koop crypto Markten Spot FuturesGOLD Earn Evenementcentrum

Meer

Google promoot WAXAL, een open-source spraakdataset van Google Research Africa, die meerdere Afrikaanse moedertalen spreektGoogle promoot WAXAL, een open-source spraakdataset van Google Research Africa, die meerdere Afrikaanse moedertalen spreekt

Hoe Google AI de 2.000 talen van Afrika wil leren

Bron: Techcabal

2026/02/12 21:33

10 min lezen

Voor feedback of opmerkingen over deze inhoud kun je contact met ons opnemen via crypto.news@mexc.com

Wanneer Abdoulaye Diack, programmamanager bij Google Research, een divisie van Google die zich toelegt op het bevorderen van de stand van zaken in de informatica en het toepassen van die doorbraken op praktische problemen, praat over de oorsprong van WAXAL, een open-source spraakdataset van Google Research Africa, begint hij met een enkel woord.

"WAXAL betekent 'spreken'," vertelde hij aan TechCabal, daarbij verwijzend naar de wortels in het Wolof, een veelgesproken taal in de Senegambia-regio.

De naam, gekozen in 2020 door een Senegalese onderzoeksleider bij Google, Moustaph Cisse, weerspiegelt een grotere waarheid over Afrika's AI-traject: op een continent met meer dan 2.000 talen, waarvan de meeste gesproken in plaats van geschreven, is stem niet optioneel; het is het toegangspunt.

Jarenlang heeft digitale technologie zich geconcentreerd op geletterdheid, toetsenborden en tekst. Maar in Afrika leeft taal in gesprekken, op markten, boerderijen, klinieken en in huizen. AI die accenten, intonatie of code-switching niet kan ontleden, kan de meeste Afrikanen niet op een zinvolle manier bedienen. WAXAL wil dat veranderen. In plaats van zich uitsluitend te richten op tekstvertaling, creëert het project de fundamentele infrastructuur voor spraak-naar-spraak AI in Afrikaanse talen met weinig bronnen, gericht op het bouwen van een uitgebreide, hoogwaardige hub van taalkundig "grondmateriaal".

"Het hebben van AI die in onze taal tegen ons kan spreken en ons begrijpt, of het nu ons accent of onze intonatie betreft, is eigenlijk behoorlijk belangrijk," zei Diack.

Het data-nadeel

De uitdaging begint met een scherpe onbalans. Meer dan 50% van alle websites is in het Engels en een handvol westerse talen. Afrika's 2.000-plus talen komen nauwelijks voor in mondiale digitale datasets. De meeste zijn ondervertegenwoordigd online. Veel worden niet uitgebreid geschreven. Sommige zijn helemaal niet gestandaardiseerd.

Als AI-modellen worden getraind op digitale tekst, en digitale tekst nauwelijks bestaat voor Afrikaanse talen, dan begint het continent de AI-race met een structureel nadeel.

"Dit is geen nieuw probleem," zei Diack. "Mensen in onderzoek zijn zich bewust van deze enorme kloof in het gebrek aan data."

Zonder data kunnen modellen niet worden getraind. Zonder getrainde modellen horen AI-systemen verkeerd, vertalen ze verkeerd of negeren ze hele bevolkingsgroepen. Diack vertelt over een veel voorkomende frustratie: spreken met een Franstalig Afrikaans accent terwijl een AI-notitiesysteem moeite heeft om hem te begrijpen. De technologie bestaat, maar is niet afgestemd op de lokale context.

Die kloof wil WAXAL dichten.

Het bouwen van een spraakfundament

Officieel gelanceerd in februari 2026 na drie jaar ontwikkeling, produceerde WAXAL een van de grootste spraakdatasets voor Afrikaanse talen tot nu toe: meer dan 11.000 uur opgenomen spraak van bijna 2 miljoen individuele opnames, die 21 Sub-Saharaanse Afrikaanse talen bestrijken, waaronder Hausa, Yoruba, Luganda en Acholi.

Naast algemene spraakverzameling, zei Google dat het meer dan 20 uur hoogwaardige studio-opnames heeft geïnvesteerd om natuurlijk klinkende synthetische stemmen te ontwikkelen voor spraakassistenten. Deze "studio premium"-opnames zijn ontworpen om AI-reacties minder robotachtig en meer cultureel authentiek te laten klinken.

Google structureerde het initiatief als een partnerschapsmodel. Universiteiten zoals Makerere University in Oeganda en de University of Ghana leidden een groot deel van de dataverzameling. Lokale partners behouden het eigendom van de datasets, die zijn vrijgegeven als open source onder licenties die commercieel gebruik toestaan.

"We hebben voornamelijk begeleiding en financiering geboden," legde Diack uit. "Al deze datasets zijn niet van ons. Ze zijn van de partners waarmee we samenwerken."

De ambitie is niet alleen om Google's eigen producten te voeden, maar om een ecosysteem te creëren.

Binnen enkele dagen na de release registreerde de dataset meer dan 4.000 downloads, een vroeg teken van acceptatie door onderzoekers en ontwikkelaars, aldus Diack

Waarom stem belangrijk is

Google biedt al vertaaltools aan voor veel talen. Dus waarom vanaf nul beginnen?

Omdat vertaling geen spraak is.

Traditionele machinevertaling is afhankelijk van "parallelle tekst", zinnen geschreven in de ene taal die zijn afgestemd op hun equivalenten in een andere. Voor talen met weinig bronnen bestaan dergelijke parallelle corpora nauwelijks. En zelfs wanneer vertaling werkt, lost het het diepere probleem niet op: veel Afrikanen communiceren met technologie voornamelijk via spraak.

"Veel mensen weten eigenlijk niet hoe ze moeten lezen en schrijven op het continent," zei Diack. "Stem is eigenlijk de toegangspoort tot technologie."

Stel je een boer in Kaduna voor die om weersverwachtingen vraagt in het Hausa. Of een moeder in een landelijk Ghanees dorp die voedingsadvies zoekt in haar lokale taal. Tekstgebaseerde systemen veronderstellen geletterdheid en gestandaardiseerde spelling. Spraaksystemen moeten navigeren door dialecten, slang, code-switching en atypische spraakpatronen.

In Ghana produceerde een spraakherkenningsproject, het UGSpeechData-initiatief, meer dan 5.000 uur audiodata. Dat initiatief maakte later de ontwikkeling mogelijk van een chatbot voor moedergezondheid die in lokale talen werkt. Het breidde zich ook uit naar werk aan atypische spraak, waarbij gemeenschappen van dove individuen en beroerteoverlevers werden geholpen wier spraakpatronen vaak reguliere AI-systemen in verwarring brengen.

"AI-systemen zijn daaraan niet aangepast," zei Diack. "Als je verschillende soorten spraak hebt, is het waarschijnlijk dat het systeem je niet zal begrijpen."

Een druk veld

Google is niet alleen in deze race.

Masakhane, een grassroots open-source onderzoekscollectief, heeft vertaalsystemen gebouwd voor meer dan 45 Afrikaanse talen en Lulu ontwikkeld, een benchmark voor het evalueren van Afrikaanse taalmodellen. De filosofie is gemeenschapsgericht en volledig open.

Zuid-Afrika's Lelapa AI, opgericht door voormalige DeepMind-onderzoekers, richt zich op commerciële Natural Language Processing (NLP)-producten voor Afrikaanse bedrijven. Het vlaggenschipmodel, Vulavula, legt dialecten en stedelijke code-switchingpatronen vast in isiZulu, Sesotho en Afrikaans. Lelapa benadrukt "ground truth"-datasets en uitgebreide menselijke foutanalyse, een kostbare maar hoogwaardige benadering.

Lesan AI in Ethiopië heeft enkele van de meest nauwkeurige vertaalsystemen gebouwd voor Amhaars, Tigrinya en Oromo met behulp van een human-in-the-loop-model om culturele nuances te waarborgen.

Meta's No Language Left Behind (NLLB-200)-project hanteert een grootschalige aanpak, waarbij vertaald wordt over 200 talen, waaronder 55 Afrikaanse, met behulp van zero-shot learning. Microsoft integreert ondertussen Afrikaanse talen in Microsoft Translator en investeert in multimodale landbouwdatasets via projecten zoals Gecko.

Het door de Gates Foundation gefinancierde African Next Voices-initiatief werd eind 2025 gelanceerd en produceerde 9.000 uur spraakdata over 18 talen.

Het ecosysteem is divers: open-source collectieven, commerciële startups, Big Tech-giganten, filantropische financiers. Elk benadert het probleem anders: schaal versus diepte, tekst versus stem, open versus propriëtair.

Google's onderscheid ligt in zijn spraakzware, ecosysteemgerichte benadering.

Soevereiniteit versus verlamming

Toch roept de betrokkenheid van mondiale techgiganten onvermijdelijk vragen op over datasoevereiniteit en afhankelijkheid.

Als Google de release van meertalige spraakdatasets coördineert, creëert dat dan een structurele afhankelijkheid van Google-producten? Zouden lokale ontwikkelaars afhankelijk kunnen worden van tools die zijn ingebed in Gemini, Search of Android?

Diack erkent de spanning maar waarschuwt ervoor om zo in conflict te raken dat er niets wordt gedaan aan de kans die wordt geboden.

"Wat het belangrijkst is, is dat we niet achterblijven," zei hij. "Ik wil absoluut niet dat mijn data wordt misbruikt. Maar dit gaat over het in staat stellen van ondernemers, startups en onderzoekers om te werken aan data die echt belangrijk is."

Hij trekt parallellen met partnerschappen tussen universiteiten en techbedrijven in de Verenigde Staten en Europa. Samenwerking, betoogt hij, versnelt capaciteitsopbouw. Onderzoekers die betrokken waren bij vroege projecten hebben al papers gepubliceerd en zijn doorgestroomd naar mondiale onderzoeksrollen.

Het open licentiemodel staat centraal in dat argument. Ontwikkelaars kunnen commerciële producten bouwen op basis van WAXAL-datasets zonder afhankelijk te zijn van Google's propriëtaire API's. Google heeft ook open-weight vertaalmodellen zoals Translate Gemma vrijgegeven, die onafhankelijk kunnen worden gedownload en verfijnd.

Of die balans critici tevreden stelt, moet nog blijken. Maar de omvang van de taalkloof suggereert dat passiviteit grotere risico's kan inhouden.

Infrastructuur: de stille voorwaarde

Spraak-AI bestaat niet op zichzelf. Het vereist connectiviteit, bandbreedte en computerinfrastructuur.

"Je kunt AI-modellen niet echt trainen zonder de juiste infrastructuur," zei Diack.

Google heeft geïnvesteerd in onderzeese kabels, waaronder het aanleggen van de Equiano-kabel in Nigeria en andere Afrikaanse markten, om de breedbandweerbaarheid te versterken. Glasvezelonderbrekingen in de afgelopen jaren hebben de kwetsbaarheid van regionale netwerken blootgelegd. Redundante infrastructuur met hoge capaciteit is niet alleen essentieel voor clouddiensten, maar ook voor lokale datacenters, een belangrijke pijler van digitale soevereiniteit.

AI-ontwikkeling hangt af van drie fundamenten: mensen, data en infrastructuur. Afrika's jonge bevolking, die naar verwachting in de komende decennia een groot deel van de mondiale AI-gebruikers zal uitmaken, biedt een demografisch voordeel. Maar zonder investeringen in onderzoekscapaciteit en digitale infrastructuur zal demografisch potentieel zich niet vertalen in technologisch leiderschap.

De coördinatie-uitdaging

Om fragmentatie te voorkomen, is Google overgestapt van geïsoleerde universitaire partnerschappen naar meer gecoördineerde samenwerkingsmodellen. Een dergelijke inspanning omvat samenwerking met Masakhane's taalhub en andere vrijwilligersnetwerken om onderzoekers en startups in staat te stellen om financiering aan te vragen en bij te dragen aan gedeelde datasets.

"Als we allemaal ons eigen ding doen over het hele continent, is het niet effectief," zei Diack. "We hebben een gezamenlijke inspanning nodig."

Tot nu toe heeft WAXAL 27 talen gedekt, waaronder vier Nigeriaanse. Enkele van de al gedekte talen zijn onder meer Acholi, Akan, Dagaare, Dagbani, Dholuo, Ewe, Fante, Fulani (Fula), Hausa, Igbo, Ikposo (Kposo), Kikuyu, Lingala, Luganda, Malagasy, Masaaba, Nyankole, Rukiga, Shona, Soga (Lusoga), Swahili en Yoruba.

De ambitie om alle 2.000-plus Afrikaanse talen aan te pakken is aspirationeel, misschien wel generationeel.

"Dat is mijn droom," zei Diack.

Maar prioritering is belangrijk. Hij wijst op onderwijs, landbouw en gezondheid als kritieke domeinen waar spraak-AI meetbare impact kan leveren die aansluit bij duurzame ontwikkelingsdoelen.

Weersverwachting geïntegreerd in Google Search, verbeterd door Afrikaanse onderzoeksinitiatieven, demonstreert al mondiale spillover. Cassave-ziekte detectieprojecten zoals de PlantVillage Nuru ontwikkeld via een partnerschap tussen Penn State University, International Institute of Tropical Agriculture (IITA) en Consultative Group on International Agricultural Research (CGIAR), hebben landbouw-AI buiten Afrika beïnvloed. Deze precedenten suggereren dat oplossingen gebouwd voor Afrika wereldwijd kunnen schalen.

De kosten van inheems-eerst AI

Het verzamelen van spraakdata in settings met weinig bronnen is duur. Veldopnames, transcriptie, taalkundige validatie en stemmenthese van studiokwaliteit vereisen duurzame financiering.

Google's investering maakt deel uit van een bredere verschuiving in de industrie van het scrapen van beschikbare tekst naar het investeren in originele spraakdata. Lelapa AI's human-in-the-loop verificatiemodel onderstreept de kosten van nauwkeurigheid. Meta's FLORES-200 dataset was afhankelijk van professionele vertalers. Microsoft's landbouwspraakinitiatieven omvatten duizenden geannoteerde video's.

Kwaliteit is belangrijk. Synthetische stemmen moeten natuurlijk klinken. Herkenningssystemen moeten code-switching aankunnen. Stedelijke spraak mengt vaak Engels, lokale talen en slang in dezelfde zin.

Afrikaanse AI kan niet uitsluitend via automatisering worden gebouwd; het vereist culturele en taalkundige expertise.

Voor Diack wordt succes niet uitsluitend gemeten door productintegratie.

"Ik wil startups zien die de dataset gebruiken om diensten in lokale talen te bieden," zei hij. "Ik wil onderzoekers zien die papers schrijven op basis van onze talen, niet alleen Engels."

Uiteindelijk moet de deur die Google bouwt echter ergens concreet naartoe leiden. Dat omvat Google-producten; Search, Gemini, spraakassistenten, die vloeiend communiceren in Yoruba, Wolof, Hausa of Luganda. Maar het omvat ook onafhankelijke startups die fintech-tools, gezondheidschatbots of landbouwadviessystemen bouwen.

Afrika's AI-toekomst hangt vooral af van de vraag of stem een gelijkstellende kracht wordt of een nieuwe gemiste kans. Als spraak onherkend blijft door mondiale systemen, zullen miljarden woorden die dagelijks op het continent worden gesproken digitaal onzichtbaar blijven.

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met crypto.news@mexc.com om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.

Misschien vind je dit ook leuk

8eyond: Team Up for 10M USDT

Win $200K in gold & early bird mystery boxes

Trending nieuws

Meer

Amerikaanse overheid verplaatst $177K aan Bitcoin in beslag genomen van steroïdenhandelaar Glenn Olivio naar Coinbase Prime

Microsoft neerwaartse trend verdiept zich terwijl Meta herstel test te midden van verschuivende marktstructuur

VS-inlichtingendiensten zeggen dat China heimelijk Iran bewapent tijdens kwetsbaar staakt-het-vuren

Litecoin Bereikt Belangrijke Ondersteuning: Komt er een Uitbraak?

Ether Machine annuleert beursnotering van $1,5 miljard op Nasdaq, verwijst naar 'ongunstige' omstandigheden

24/7 live nieuws

Meer

RAVE is vandaag de meest trending cryptocurrency, wat wijst op verhoogde marktaandacht en mogelijk grotere handelsactiviteit.

Auteur: Nehal14:28

Volgens Chainalysis lopen rederijen bij het betalen van Iran in crypto het risico sancties te overtreden.

Auteur: Nehal14:14

Binnen 4 uur zijn er longposities ter waarde van $112 miljoen geliquideerd, wat wijst op aanzienlijke marktvolatiliteit.

Auteur: CryptoSavingExpert ®13:00

De relevantie van SWIFT wordt in twijfel getrokken; Ripple wordt naar voren geschoven als een dominante speler. Mogelijke gevolgen voor grensoverschrijdende betalingssystemen.

Auteur: Ripple Bull Winkle | Crypto Researcher 🚀🚨12:00

Ripple beweert aanzienlijke vooruitgang te hebben geboekt in financiële systemen en suggereert daarmee mogelijke concurrentie voor SWIFT. De gevolgen voor de markt blijven onzeker.

Auteur: Ripple Bull Winkle | Crypto Researcher 🚀🚨10:01