जब Google Research के प्रोग्राम मैनेजर Abdoulaye Diack, जो कंप्यूटर विज्ञान में अत्याधुनिक प्रगति करने और उन सफलताओं को वास्तविक दुनिया की समस्याओं पर लागू करने के लिए समर्पित Google का एक डिवीजन है, Google Research Africa के ओपन-सोर्स स्पीच डेटासेट WAXAL की उत्पत्ति के बारे में बात करते हैं, तो वे एक ही शब्द से शुरू करते हैं।
"WAXAL का मतलब है 'बोलना'," उन्होंने TechCabal को बताया, सेनेगाम्बिया क्षेत्र में व्यापक रूप से बोली जाने वाली भाषा वोलोफ में इसकी जड़ों का उल्लेख करते हुए।
यह नाम, जिसे 2020 में Google के सेनेगली रिसर्च लीड Moustaph Cisse ने चुना था, अफ्रीका के AI प्रक्षेपवक्र के बारे में एक बड़ी सच्चाई को दर्शाता है: 2,000 से अधिक भाषाओं वाले महाद्वीप पर, जिनमें से अधिकांश लिखित के बजाय बोली जाती हैं, आवाज वैकल्पिक नहीं है; यह प्रवेश बिंदु है।
वर्षों से, डिजिटल तकनीक साक्षरता, कीबोर्ड और पाठ पर केंद्रित रही है। लेकिन अफ्रीका में, भाषा बातचीत में जीवित रहती है, बाजारों, खेतों, क्लीनिकों और घरों में। जो AI उच्चारण, स्वरोच्चारण या कोड-स्विचिंग को समझ नहीं सकता, वह अधिकांश अफ्रीकियों की सार्थक सेवा नहीं कर सकता। WAXAL का उद्देश्य इसे बदलना है। केवल पाठ अनुवाद पर ध्यान केंद्रित करने के बजाय, यह परियोजना कम-संसाधन वाली अफ्रीकी भाषाओं में स्पीच-टू-स्पीच AI के लिए बुनियादी बुनियादी ढांचा बना रही है, जो भाषाई "कच्चे माल" का एक विशाल, उच्च-गुणवत्ता वाला केंद्र बनाने पर केंद्रित है।
"ऐसा AI होना जो हमारी भाषा में हमसे बात कर सके और हमें समझ सके, चाहे वह हमारा उच्चारण हो या स्वरोच्चारण, वास्तव में काफी महत्वपूर्ण है," Diack ने कहा।
चुनौती एक स्पष्ट असंतुलन से शुरू होती है। सभी वेबसाइटों का 50% से अधिक अंग्रेजी और कुछ पश्चिमी भाषाओं में है। अफ्रीका की 2,000 से अधिक भाषाएं वैश्विक डिजिटल डेटासेट में मुश्किल से दर्ज हैं। अधिकांश ऑनलाइन कम प्रतिनिधित्व वाली हैं। कई व्यापक रूप से लिखी नहीं गई हैं। कुछ बिल्कुल भी मानकीकृत नहीं हैं।
यदि AI मॉडल्स को डिजिटल पाठ पर प्रशिक्षित किया जाता है, और अफ्रीकी भाषाओं के लिए डिजिटल पाठ मुश्किल से मौजूद है, तो महाद्वीप संरचनात्मक नुकसान पर AI दौड़ शुरू करता है।
"यह कोई नई समस्या नहीं है," Diack ने कहा। "शोध में लोग डेटा की कमी में इस विशाल अंतर के बारे में जागरूक हैं।"
डेटा के बिना, मॉडल्स को प्रशिक्षित नहीं किया जा सकता। प्रशिक्षित मॉडल्स के बिना, AI सिस्टम गलत सुनते हैं, गलत अनुवाद करते हैं या पूरी आबादी को नजरअंदाज करते हैं। Diack एक सामान्य निराशा का वर्णन करते हैं: फ्रैंकोफोन अफ्रीकी उच्चारण में बोलते समय एक AI नोट-टेकिंग सिस्टम उन्हें समझने के लिए संघर्ष करता है। तकनीक मौजूद है, लेकिन यह स्थानीय संदर्भ के अनुरूप नहीं है।
वह अंतर है जिसे WAXAL बंद करना चाहता है।
तीन साल के विकास के बाद फरवरी 2026 में आधिकारिक तौर पर लॉन्च किया गया, WAXAL ने अब तक अफ्रीकी भाषाओं के लिए सबसे बड़े स्पीच डेटासेट में से एक का उत्पादन किया: लगभग 20 लाख व्यक्तिगत रिकॉर्डिंग से 11,000 घंटे से अधिक की रिकॉर्ड की गई स्पीच, जिसमें हौसा, योरूबा, लुगांडा और अचोली सहित 21 उप-सहारा अफ्रीकी भाषाएं शामिल हैं।
सामान्य स्पीच संग्रह से परे, Google ने कहा कि उसने वॉयस असिस्टेंट के लिए प्राकृतिक-ध्वनि वाली सिंथेटिक आवाजें विकसित करने के लिए 20 घंटे से अधिक की उच्च-गुणवत्ता वाली स्टूडियो रिकॉर्डिंग में निवेश किया है। ये "स्टूडियो प्रीमियम" रिकॉर्डिंग AI प्रतिक्रियाओं को कम रोबोटिक और अधिक सांस्कृतिक रूप से प्रामाणिक बनाने के लिए डिज़ाइन की गई हैं।
Google ने पहल को साझेदारी मॉडल के रूप में संरचित किया। युगांडा में मैकरेरे विश्वविद्यालय और घाना विश्वविद्यालय जैसे विश्वविद्यालयों ने अधिकांश डेटा संग्रह का नेतृत्व किया। स्थानीय भागीदारों के पास डेटासेट का स्वामित्व बना हुआ है, जिन्हें वाणिज्यिक उपयोग की अनुमति देने वाले लाइसेंस के तहत ओपन सोर्स के रूप में जारी किया गया है।
"हमने ज्यादातर मार्गदर्शन और वित्तपोषण प्रदान किया है," Diack ने समझाया। "यह सभी डेटासेट हमारे पास नहीं है। यह उन भागीदारों के पास है जिनके साथ हम काम करते हैं।"
महत्वाकांक्षा केवल Google के अपने उत्पादों को फीड करने की नहीं है, बल्कि एक इकोसिस्टम को बीज देने की है।
रिलीज के कुछ दिनों के भीतर, डेटासेट ने 4,000 से अधिक डाउनलोड दर्ज किए, Diack के अनुसार शोधकर्ता और डेवलपर अपनाने का एक प्रारंभिक संकेत
Google पहले से ही कई भाषाओं में अनुवाद उपकरण प्रदान करता है। तो फिर शुरुआत से क्यों शुरू करें?
क्योंकि अनुवाद स्पीच नहीं है।
पारंपरिक मशीन अनुवाद "समानांतर पाठ" पर निर्भर करता है, एक भाषा में लिखे गए वाक्य जो दूसरे में उनके समकक्षों के साथ संरेखित होते हैं। कम-संसाधन वाली भाषाओं के लिए, ऐसे समानांतर कॉर्पोरा मुश्किल से मौजूद हैं। और यहां तक कि जब अनुवाद काम करता है, तो यह गहरी समस्या को हल नहीं करता है: कई अफ्रीकी मुख्य रूप से स्पीच के माध्यम से तकनीक के साथ बातचीत करते हैं।
"महाद्वीप पर बहुत से लोग वास्तव में पढ़ना और लिखना नहीं जानते हैं," Diack ने कहा। "आवाज मूल रूप से तकनीक का प्रवेश द्वार है।"
कल्पना करें कि कादुना में एक किसान हौसा में मौसम पूर्वानुमान के बारे में पूछ रहा है। या ग्रामीण घाना के गांव में एक मां अपनी स्थानीय भाषा में पोषण संबंधी सलाह मांग रही है। पाठ-आधारित सिस्टम साक्षरता और मानकीकृत वर्तनी मानते हैं। वॉयस सिस्टम को बोलियों, अशिष्ट भाषा, कोड-स्विचिंग और असामान्य स्पीच पैटर्न को नेविगेट करना होगा।
घाना में, एक स्पीच रिकग्निशन प्रोजेक्ट, UGSpeechData पहल ने 5,000 घंटे से अधिक की ऑडियो डेटा का उत्पादन किया। उस पहल ने बाद में स्थानीय भाषाओं में काम करने वाले मातृ स्वास्थ्य चैटबॉट के विकास को सक्षम किया। यह असामान्य स्पीच पर काम में भी विस्तारित हुआ, बधिर व्यक्तियों और स्ट्रोक बचे लोगों के समुदायों की मदद करता है जिनके स्पीच पैटर्न अक्सर मुख्यधारा AI सिस्टम को भ्रमित करते हैं।
"AI सिस्टम उसके लिए अनुकूलित नहीं हैं," Diack ने कहा। "यदि आपके पास विभिन्न प्रकार के स्पीच हैं, तो संभावना है कि सिस्टम आपको समझ नहीं पाएगा।"
Google इस दौड़ में अकेला नहीं है।
मासाखाने, एक जमीनी स्तर का ओपन-सोर्स रिसर्च कलेक्टिव, ने 45 से अधिक अफ्रीकी भाषाओं में अनुवाद प्रणालियां बनाई हैं और लुलू विकसित किया है, जो अफ्रीकी भाषा मॉडल का मूल्यांकन करने के लिए एक बेंचमार्क है। इसका दर्शन समुदाय-प्रथम और पूरी तरह से खुला है।
दक्षिण अफ्रीका का लेलापा AI, पूर्व DeepMind शोधकर्ताओं द्वारा स्थापित, अफ्रीकी व्यवसायों के लिए वाणिज्यिक प्राकृतिक भाषा प्रसंस्करण (NLP) उत्पादों पर केंद्रित है। इसका फ्लैगशिप मॉडल, वुलावुला, isiZulu, Sesotho और अफ्रीकी में बोलियों और शहरी कोड-स्विचिंग पैटर्न को कैप्चर करता है। लेलापा "ग्राउंड ट्रुथ" डेटासेट और भारी मानव त्रुटि विश्लेषण पर जोर देता है, एक महंगा लेकिन उच्च-निष्ठा दृष्टिकोण।
इथियोपिया में लेसान AI ने सांस्कृतिक बारीकियों को सुनिश्चित करने के लिए एक मानव-इन-द-लूप मॉडल का उपयोग करके अम्हारिक, टाइग्रीन्या और ओरोमो के लिए कुछ सबसे सटीक अनुवाद प्रणालियां बनाई हैं।
Meta का No Language Left Behind (NLLB-200) प्रोजेक्ट एक विशाल-पैमाने का दृष्टिकोण अपनाता है, जो शून्य-शॉट लर्निंग का उपयोग करके 55 अफ्रीकी भाषाओं सहित 200 भाषाओं में अनुवाद करता है। इस बीच Microsoft, अफ्रीकी भाषाओं को Microsoft Translator में एकीकृत करता है और Gecko जैसी परियोजनाओं के माध्यम से बहु-मोडल कृषि डेटासेट में निवेश कर रहा है।
गेट्स फाउंडेशन द्वारा वित्त पोषित अफ्रीकन नेक्स्ट वॉइसेस पहल 2025 के अंत में लॉन्च की गई, जिसमें 18 भाषाओं में 9,000 घंटे का स्पीच डेटा का उत्पादन किया गया।
इकोसिस्टम विविध है: ओपन-सोर्स सामूहिक, वाणिज्यिक स्टार्टअप, बड़ी तकनीकी दिग्गज, परोपकारी फंडर्स। प्रत्येक समस्या को अलग तरीके से देखता है: पैमाने बनाम गहराई, पाठ बनाम आवाज, खुला बनाम स्वामित्व।
Google का अंतर इसके स्पीच-भारी, इकोसिस्टम-उन्मुख दृष्टिकोण में निहित है।
फिर भी वैश्विक तकनीकी दिग्गजों की भागीदारी अनिवार्य रूप से डेटा संप्रभुता और निर्भरता के बारे में सवाल उठाती है।
यदि Google बहुभाषी स्पीच डेटासेट की रिलीज का समन्वय करता है, तो क्या यह Google उत्पादों पर संरचनात्मक निर्भरता बनाता है? क्या स्थानीय डेवलपर्स Gemini, Search या Android के भीतर एम्बेडेड टूल पर निर्भर हो सकते हैं?
Diack तनाव को स्वीकार करते हैं लेकिन इतना संघर्षग्रस्त होने के खिलाफ चेतावनी देते हैं कि प्रस्तुत अवसर के बारे में कुछ भी नहीं किया जाता है।
"सबसे महत्वपूर्ण यह है कि हम पीछे नहीं रह जाएं," उन्होंने कहा। "मैं निश्चित रूप से नहीं चाहता कि मेरे डेटा का दुरुपयोग हो। लेकिन यह उद्यमियों, स्टार्टअप और शोधकर्ताओं को ऐसे डेटा पर काम करने में सक्षम बनाने के बारे में है जो वास्तव में महत्वपूर्ण है।"
वह संयुक्त राज्य अमेरिका और यूरोप में विश्वविद्यालयों और तकनीकी कंपनियों के बीच साझेदारी के साथ समानताएं खींचते हैं। सहयोग, वह तर्क देते हैं, क्षमता-निर्माण को तेज करता है। पहले से ही, प्रारंभिक परियोजनाओं में शामिल शोधकर्ताओं ने पेपर प्रकाशित किए हैं और वैश्विक अनुसंधान भूमिकाओं में उन्नत हुए हैं।
ओपन लाइसेंसिंग मॉडल उस तर्क के लिए केंद्रीय है। डेवलपर्स Google के स्वामित्व वाले API पर निर्भर किए बिना WAXAL डेटासेट के शीर्ष पर वाणिज्यिक उत्पाद बना सकते हैं। Google ने ट्रांसलेट जेम्मा जैसे ओपन-वेट अनुवाद मॉडल भी जारी किए हैं, जिन्हें स्वतंत्र रूप से डाउनलोड और फाइन-ट्यून किया जा सकता है।
क्या वह संतुलन आलोचकों को संतुष्ट करता है, यह देखा जाना बाकी है। लेकिन भाषा अंतर के पैमाने से पता चलता है कि निष्क्रियता अधिक जोखिम उठा सकती है।
वॉयस AI अलगाव में मौजूद नहीं है। इसके लिए कनेक्टिविटी, बैंडविड्थ और कंप्यूटिंग बुनियादी ढांचे की आवश्यकता होती है।
"आप वास्तव में सही बुनियादी ढांचे के बिना AI मॉडल को प्रशिक्षित नहीं कर सकते," Diack ने कहा।
Google ने ब्रॉडबैंड लचीलापन को मजबूत करने के लिए नाइजीरिया और अन्य अफ्रीकी बाजारों में Equiano केबल की लैंडिंग सहित समुद्र के नीचे केबल में निवेश किया है। हाल के वर्षों में फाइबर कटौती ने क्षेत्रीय नेटवर्क की नाजुकता को उजागर किया। निरर्थक, उच्च-क्षमता वाला बुनियादी ढांचा न केवल क्लाउड सेवाओं के लिए आवश्यक है, बल्कि स्थानीय डेटा केंद्रों के लिए भी, जो डिजिटल संप्रभुता का एक प्रमुख स्तंभ है।
AI विकास तीन नींवों पर निर्भर करता है: लोग, डेटा और बुनियादी ढांचा। अफ्रीका की युवा आबादी, जो आने वाले दशकों में वैश्विक AI उपयोगकर्ताओं के एक बड़े हिस्से के लिए अनुमानित है, एक जनसांख्यिकीय लाभ प्रदान करती है। लेकिन अनुसंधान क्षमता और डिजिटल बुनियादी ढांचे में निवेश के बिना, जनसांख्यिकीय क्षमता तकनीकी नेतृत्व में अनुवाद नहीं करेगी।
विखंडन से बचने के लिए, Google अलग-थलग विश्वविद्यालय साझेदारी से अधिक समन्वित सहयोग मॉडल में स्थानांतरित हो गया है। एक ऐसा प्रयास मासाखाने के भाषा केंद्र और अन्य स्वयंसेवक नेटवर्क के साथ काम करना शामिल है ताकि शोधकर्ताओं और स्टार्टअप को वित्तपोषण के लिए आवेदन करने और साझा डेटासेट में योगदान करने में सक्षम बनाया जा सके।
"यदि हम सभी महाद्वीप भर में अपनी चीज कर रहे हैं, तो यह प्रभावी नहीं है," Diack ने कहा। "हमें एक ठोस प्रयास की आवश्यकता है।"
अब तक, WAXAL ने चार नाइजीरियाई सहित 27 भाषाओं को कवर किया है। पहले से कवर की गई कुछ भाषाओं में अचोली, अकान, दगारे, दगबानी, धोलुओ, इवे, फैंट, फुलानी (फुला), हौसा, इग्बो, इकपोसो (क्पोसो), किकुयू, लिंगाला, लुगांडा, मालागासी, मासाबा, न्यांकोले, रुकिगा, शोना, सोगा (लुसोगा), स्वाहिली, और योरूबा शामिल हैं।
सभी 2,000 से अधिक अफ्रीकी भाषाओं को संबोधित करने की महत्वाकांक्षा आकांक्षी है, शायद पीढ़ीगत।
"वह मेरा सपना है," Diack ने कहा।
लेकिन प्राथमिकता महत्वपूर्ण है। वह शिक्षा, कृषि और स्वास्थ्य को महत्वपूर्ण डोमेन के रूप में इंगित करते हैं जहां वॉयस AI सतत विकास लक्ष्यों के साथ संरेखित मापने योग्य प्रभाव प्रदान कर सकता है।
Google Search में एकीकृत मौसम पूर्वानुमान, अफ्रीकी अनुसंधान पहलों के माध्यम से सुधार, पहले से ही वैश्विक स्पिलओवर प्रदर्शित करता है। पेन स्टेट यूनिवर्सिटी, इंटरनेशनल इंस्टीट्यूट ऑफ ट्रॉपिकल एग्रीकल्चर (IITA) और कंसल्टेटिव ग्रुप ऑन इंटरनेशनल एग्रीकल्चरल रिसर्च (CGIAR) के बीच साझेदारी के माध्यम से विकसित प्लांटविलेज नुरु जैसी कसावा रोग का पता लगाने की परियोजनाओं ने अफ्रीका से परे कृषि AI को प्रभावित किया है। ये मिसालें सुझाव देती हैं कि अफ्रीका के लिए बनाए गए समाधान विश्व स्तर पर स्केल कर सकते हैं।
कम-संसाधन वाली सेटिंग्स में वॉयस डेटा एकत्र करना महंगा है। फील्ड रिकॉर्डिंग, ट्रांसक्रिप्शन, भाषाई सत्यापन और स्टूडियो-गुणवत्ता वाली वॉयस सिंथेसिस को निरंतर वित्तपोषण की आवश्यकता होती है।
Google का निवेश उपलब्ध पाठ को स्क्रैप करने से मूल स्पीच डेटा में निवेश करने के लिए एक व्यापक उद्योग बदलाव का हिस्सा है। लेलापा AI का मानव-इन-द-लूप सत्यापन मॉडल सटीकता की लागत को रेखांकित करता है। Meta का FLORES-200 डेटासेट पेशेवर अनुवादकों पर निर्भर था। Microsoft की कृषि वॉयस पहलों में हजारों एनोटेटेड वीडियो शामिल हैं।
गुणवत्ता मायने रखती है। सिंथेटिक आवाजें प्राकृतिक लगनी चाहिए। रिकग्निशन सिस्टम को कोड-स्विचिंग को संभालना होगा। शहरी स्पीच अक्सर एक ही वाक्य में अंग्रेजी, स्थानीय भाषाओं और अशिष्ट भाषा को मिश्रित करती है।
अफ्रीकी AI को केवल स्वचालन के माध्यम से नहीं बनाया जा सकता; इसके लिए सांस्कृतिक और भाषाई विशेषज्ञता की आवश्यकता होगी।
Diack के लिए, सफलता केवल उत्पाद एकीकरण से नहीं मापी जाती है।
"मैं स्टार्टअप को स्थानीय भाषाओं में सेवाएं प्रदान करने के लिए डेटासेट का लाभ उठाते देखना चाहता हूं," उन्होंने कहा। "मैं शोधकर्ताओं को हमारी भाषाओं के आधार पर पेपर लिखते देखना चाहता हूं, न कि केवल अंग्रेजी।"
अंततः, हालांकि, Google जो दरवाजा बना रहा है, उसे कहीं ठोस ले जाना चाहिए। इसमें Google उत्पाद शामिल हैं; Search, Gemini, वॉयस असिस्टेंट, जो योरूबा, वोलोफ, हौसा या लुगांडा में धाराप्रवाह बातचीत करते हैं। लेकिन इसमें फिनटेक टूल्स, हेल्थ चैटबॉट या कृषि सलाहकार प्रणालियों का निर्माण करने वाले स्वतंत्र स्टार्टअप भी शामिल हैं।
यदि कुछ भी हो, तो अफ्रीका का AI भविष्य इस बात पर निर्भर करता है कि क्या आवाज एक समानता शक्ति बन जाती है या एक और छूटा हुआ अवसर। यदि स्पीच वैश्विक प्रणालियों द्वारा अपरिचित रहती है, तो महाद्वीप भर में प्रतिदिन बोले जाने वाले अरबों शब्द डिजिटल रूप से अदृश्य रहेंगे।
