Google Researchのプログラムマネージャーであるアブドゥライエ・ディアック氏(Google Researchは、コンピューターサイエンスの最先端技術を推進し、その成果を現実世界の問題解決に応用することを目的としたGoogleの部門)が、Google Research Africaのオープンソース音声データセットであるWAXALの起源について語るとき、彼は一つの単語から始める。
「WAXALは『話すこと』を意味します」と彼はTechCabalに語り、セネガンビア地域で広く話されている言語であるウォロフ語にルーツがあることを指摘した。
2020年にGoogleのセネガル人研究リーダーであるムスタフ・シセ氏によって選ばれたこの名前は、アフリカのAI軌道に関するより大きな真実を反映している:2,000以上の言語を持つ大陸では、そのほとんどが書かれるよりも話される言語であり、音声はオプションではなく、エントリーポイントである。
長年にわたり、デジタル技術は読み書き能力、キーボード、テキストを中心としてきた。しかしアフリカでは、言語は市場、農場、診療所、家庭を越えた会話の中に生きている。アクセント、イントネーション、コードスイッチングを解析できないAIは、ほとんどのアフリカ人に意味のあるサービスを提供できない。WAXALはそれを変えることを目指している。テキスト翻訳だけに焦点を当てるのではなく、このプロジェクトは、言語的な「原材料」の広大で高品質なハブの構築を中心に、リソースの少ないアフリカ言語における音声間AI の基盤インフラストラクチャを構築している。
「私たちの言語で話しかけ、アクセントやイントネーションにかかわらず私たちを理解できるAIを持つことは、実際には非常に重要です」とディアック氏は述べた。
課題は明確な不均衡から始まる。すべてのウェブサイトの50%以上が英語と少数の西洋言語で構成されている。アフリカの2,000以上の言語は、グローバルなデジタルデータセットにほとんど登録されていない。ほとんどがオンラインで過小評価されている。多くは広範囲に書かれていない。一部は全く標準化されていない。
AIモデルがデジタルテキストで訓練され、アフリカ言語のデジタルテキストがほとんど存在しない場合、大陸は構造的な不利からAI競争を始めることになる。
「これは新しい問題ではありません」とディアック氏は述べた。「研究に携わる人々は、データ不足におけるこの大きなギャップを認識しています。」
データがなければ、モデルは訓練できない。訓練されたモデルがなければ、AIシステムは誤って聞き取ったり、誤訳したり、全人口を無視したりする。ディアック氏は共通のフラストレーションを語る:フランス語圏のアフリカのアクセントで話している間、AIノート作成システムが彼を理解するのに苦労する。技術は存在するが、ローカルコンテキストに調整されていない。
そのギャップこそがWAXALが埋めたいものである。
3年間の開発を経て2026年2月に正式にローンチされたWAXALは、これまでのアフリカ言語向けの最大規模の音声データセットの一つを生み出した:ハウサ語、ヨルバ語、ルガンダ語、アチョリ語を含む21のサハラ以南アフリカ言語をカバーする、約200万件の個別録音からの11,000時間以上の録音音声。
一般的な音声収集を超えて、Googleは音声アシスタント用の自然な音の合成音声を開発するために、20時間以上の高品質スタジオ録音に投資したと述べた。これらの「スタジオプレミアム」録音は、AI応答をよりロボット的でなく、より文化的に本物らしく聞こえるように設計されている。
Googleはこの取り組みをパートナーシップモデルとして構築した。ウガンダのマケレレ大学やガーナ大学などの大学がデータ収集の多くを主導した。ローカルパートナーはデータセットの所有権を保持しており、商用利用を許可するライセンスの下でオープンソースとしてリリースされている。
「私たちは主にガイダンスと資金提供を行ってきました」とディアック氏は説明した。「このデータセットのすべては私たちのものではありません。一緒に働くパートナーのものです。」
野心は単にGoogleの自社製品を供給することではなく、エコシステムを育てることである。
リリースから数日以内に、データセットは4,000件以上のダウンロードを記録し、研究者と開発者の採用の初期の兆候となったとディアック氏は述べている
Googleはすでに多くの言語で翻訳ツールを提供している。では、なぜゼロから始めるのか?
なぜなら、翻訳は音声ではないからである。
従来の機械翻訳は「パラレルテキスト」に依存しており、一つの言語で書かれた文が別の言語の同等物と整列している。リソースの少ない言語では、そのようなパラレルコーパスはほとんど存在しない。そして、翻訳が機能する場合でも、より深い問題を解決しない:多くのアフリカ人は主に音声を通じて技術と対話する。
「大陸では実際に多くの人が読み書きの方法を知りません」とディアック氏は述べた。「音声は基本的に技術へのゲートウェイです。」
カドゥナの農民がハウサ語で天気予報について尋ねることを想像してみてください。または、ガーナの田舎の村の母親が彼女の地元の言語で栄養アドバイスを求めることを。テキストベースのシステムは読み書き能力と標準化されたスペルを前提としている。音声システムは、方言、スラング、コードスイッチング、非定型の音声パターンをナビゲートする必要がある。
ガーナでは、音声認識プロジェクトであるUGSpeechDataイニシアチブが5,000時間以上のオーディオデータを生み出した。そのイニシアチブは後に、地元の言語で動作する母体健康チャットボットの開発を可能にした。また、聴覚障害者や脳卒中生存者のコミュニティを支援するために、非定型音声の作業にも拡大した。彼らの音声パターンはしばしば主流のAIシステムを混乱させる。
「AIシステムはそれに適応していません」とディアック氏は述べた。「異なるタイプの音声がある場合、システムがあなたを理解しない可能性が高いです。」
Googleはこの競争において一人ではない。
Masakhaneは、草の根のオープンソース研究集団であり、45以上のアフリカ言語にわたる翻訳システムを構築し、アフリカ言語モデルを評価するためのベンチマークであるLuluを開発した。その哲学はコミュニティファーストで完全にオープンである。
南アフリカのLelapa AIは、元DeepMind研究者によって設立され、アフリカのビジネス向けの商用自然言語処理(NLP)製品に焦点を当てている。そのフラッグシップモデルであるVulavulaは、isiZulu、Sesotho、Afrikaansの方言と都市のコードスイッチングパターンをキャプチャする。Lelapaは「グラウンドトゥルース」データセットと重い人的エラー分析を強調しており、コストがかかるが高忠実度のアプローチである。
エチオピアのLesan AIは、文化的ニュアンスを確保するために人間参加型モデルを使用して、アムハラ語、ティグリニャ語、オロモ語の最も正確な翻訳システムのいくつかを構築した。
MetaのNo Language Left Behind(NLLB-200)プロジェクトは、ゼロショット学習を使用して、55のアフリカ言語を含む200の言語にわたって翻訳する大規模アプローチを採用している。一方、Microsoftは、アフリカ言語をMicrosoft Translatorに統合し、Geckoなどのプロジェクトを通じてマルチモーダル農業データセットに投資している。
Gates Foundationが資金提供するAfrican Next Voicesイニシアチブは2025年後半にローンチされ、18の言語にわたって9,000時間の音声データを生み出した。
エコシステムは多様である:オープンソース集団、商業スタートアップ、ビッグテック巨人、慈善資金提供者。それぞれが異なる方法で問題にアプローチする: 規模対深さ、テキスト対音声、オープン対プロプライエタリ。
Googleの特徴は、音声重視でエコシステム指向のアプローチにある。
しかし、グローバルテック巨人の関与は必然的にデータ主権と依存性に関する疑問を提起する。
Googleが多言語音声データセットのリリースを調整する場合、それはGoogle製品への構造的な依存を生み出すのか? ローカル開発者はGemini、Search、またはAndroid内に組み込まれたツールに依存するようになる可能性があるのか?
ディアック氏は緊張を認めているが、提示されている機会について何もしないほど対立することに対して警告している。
「最も重要なことは、私たちが取り残されないことです」と彼は述べた。「私は確実に私のデータが悪用されることを望んでいません。しかし、これは起業家、スタートアップ、研究者が本当に重要なデータに取り組むことを可能にすることです。」
彼は、米国とヨーロッパの大学とテクノロジー企業とのパートナーシップと類似点を描く。コラボレーションは能力構築を加速すると彼は主張する。すでに、初期プロジェクトに関与した研究者は論文を発表し、グローバルな研究の役割に進んでいる。
オープンライセンスモデルはその議論の中心である。開発者は、GoogleのプロプライエタリAPIに依存することなく、WAXALデータセット上に商業製品を構築できる。Googleはまた、独立してダウンロードおよび微調整できるTranslate Gemmaのようなオープンウェイト翻訳モデルをリリースした。
そのバランスが批評家を満足させるかどうかはまだわからない。しかし、言語ギャップの規模は、無行動がより大きなリスクを伴う可能性があることを示唆している。
音声AIは孤立して存在しない。接続性、帯域幅、コンピューティングインフラストラクチャが必要である。
「適切なインフラストラクチャなしではAIモデルを実際に訓練することはできません」とディアック氏は述べた。
Googleは、ナイジェリアやその他のアフリカ市場にEquianoケーブルを着陸させることを含む海底ケーブルに投資し、ブロードバンドの回復力を強化している。近年の光ファイバーカットは、地域ネットワークの脆弱性を露呈した。冗長で高容量のインフラストラクチャは、クラウドサービスだけでなく、デジタル主権の重要な柱であるローカルデータセンターにとっても不可欠である。
AI開発は3つの基盤に依存している:人、データ、インフラストラクチャ。今後数十年間でグローバルAIユーザーの大きなシェアを占めると予測されているアフリカの若い人口は、人口統計上の利点を提供する。しかし、研究能力とデジタルインフラストラクチャへの投資がなければ、人口統計上の可能性は技術的リーダーシップに変換されない。
断片化を避けるために、Googleは孤立した大学のパートナーシップから、より調整されたコラボレーションモデルへとシフトした。そのような取り組みの1つは、Masakhaneの言語ハブやその他のボランティアネットワークと協力して、研究者やスタートアップが資金を申請し、共有データセットに貢献できるようにすることである。
「大陸全体で私たち全員が自分自身のことをしているなら、それは効果的ではありません」とディアック氏は述べた。「私たちには協調した努力が必要です。」
これまでのところ、WAXALは4つのナイジェリアのものを含む27の言語をカバーしている。すでにカバーされている言語には、Acholi、Akan、Dagaare、Dagbani、Dholuo、Ewe、Fante、Fulani(Fula)、Hausa、Igbo、Ikposo(Kposo)、Kikuyu、Lingala、Luganda、Malagasy、Masaaba、Nyankole、Rukiga、Shona、Soga(Lusoga)、Swahili、Yorubaが含まれる。
2,000以上のすべてのアフリカ言語に対処するという野心は、願望的であり、おそらく世代的である。
「それが私の夢です」とディアック氏は述べた。
しかし、優先順位付けが重要である。彼は、音声AIが持続可能な開発目標に沿った測定可能な影響を提供できる重要な領域として、教育、農業、健康を指摘している。
Google Searchに統合され、アフリカの研究イニシアチブを通じて改善された天気予報は、すでにグローバルなスピルオーバーを示している。Penn State University、International Institute of Tropical Agriculture(IITA)、Consultative Group on International Agricultural Research(CGIAR)との提携を通じて開発されたPlantVillage Nuruなどのキャッサバ病検出プロジェクトは、アフリカを超えて農業AIに影響を与えている。これらの前例は、アフリカのために構築されたソリューションがグローバルにスケールできることを示唆している。
リソースの少ない環境で音声データを収集することは高価である。フィールド録音、転写、言語的検証、スタジオ品質の音声合成には持続的な資金提供が必要である。
Googleの投資は、利用可能なテキストをスクレイピングすることから、オリジナルの音声データへの投資へと、より広範な業界のシフトの一部である。Lelapa AIの人間参加型検証モデルは、正確性のコストを強調している。MetaのFLORES-200データセットは専門翻訳者に依存していた。Microsoftの農業音声イニシアチブには、何千もの注釈付きビデオが含まれている。
品質が重要である。合成音声は自然に聞こえる必要がある。認識システムはコードスイッチングを処理する必要がある。都市の音声は、同じ文の中で英語、地元の言語、スラングをしばしばブレンドする。
アフリカのAIは自動化だけでは構築できない;文化的および言語的専門知識が必要である。
ディアック氏にとって、成功は製品統合だけで測定されるものではない。
「私は、スタートアップがデータセットを活用して地元の言語でサービスを提供するのを見たいです」と彼は述べた。「私は、研究者が英語だけでなく、私たちの言語に基づいて論文を書くのを見たいです。」
しかし最終的には、Googleが構築しているドアは具体的な場所につながらなければならない。それには、Google製品;Search、Gemini、音声アシスタントが、Yoruba、Wolof、Hausa、Lugandaで流暢に対話することが含まれる。しかし、それにはまた、フィンテックツール、健康チャットボット、または農業アドバイザリーシステムを構築する独立したスタートアップも含まれる。
何よりも、アフリカのAIの未来は、音声が均等化の力となるか、それとも別の逃した機会となるかにかかっている。音声がグローバルシステムによって認識されないままである場合、大陸全体で毎日話される数十億の言葉はデジタル的に見えないままとなる。

