«

WAXAL:非洲语言语音技术的大规模开放资源库

qimuai 发布于 阅读:3 一手编译


WAXAL:非洲语言语音技术的大规模开放资源库

内容来源:https://research.google/blog/waxal-a-large-scale-open-resource-for-african-language-speech-technology/

内容总结:

谷歌发布大规模非洲语言语音数据集WAXAL,助力填补数字鸿沟

2026年3月6日,谷歌研究团队正式推出大规模开放语音数据集WAXAL,旨在为非洲语言语音技术发展提供关键基础设施。该数据集首批涵盖撒哈拉以南非洲地区超过26个国家、使用人数超一亿的27种本土语言,以开放许可协议发布,致力于推动更包容、更贴合当地语言特性的语音技术发展。

当前,语音助手、自动转录等语音技术已深刻改变人机交互方式,但其发展成果长期集中于少数资源丰富的语言。在拥有超过2000种语言的撒哈拉以南非洲地区,数以亿计的人口仍难以用母语享受技术便利。为应对这一挑战,谷歌研究团队自2021年起,与非洲多所高校及社区组织深度合作,共同构建了WAXAL数据集。

WAXAL包含两大核心部分:一是约1846小时的自动语音识别(ASR)数据,通过“图像描述”方式采集真实场景下的自然对话,有效捕捉了语调变化、语码转换等语言特征;二是超过565小时的高保真文本转语音(TTS)数据,由当地社区成员参与录制,部分录音在自建专业录音室中完成,确保了语音质量。所有数据均采用知识共享许可协议(CC-BY-4.0)开放,以促进技术研发与应用。

项目坚持“由非洲、为非洲”的合作原则,数据收集工作完全由非洲本土学术及社区机构主导。乌干达马凯雷雷大学、加纳大学、数字乌姆干达组织(与亚的斯亚贝巴大学合作)及塞内加尔非洲数学科学研究所等机构均为关键合作伙伴。这种协作模式确保了数据能真实反映当地语言生态,并使得合作伙伴保有数据所有权,共同致力于资源开放。

基于WAXAL,合作团队已产出多项重要研究成果:包括开发首套针对阿坎语言语障碍者的开源数据集、构建涵盖5种加纳语言的5000小时语音库、对13种非洲语言进行主流语音模型性能评估,以及系统梳理非洲语言语音技术资源现状。这些工作为在资源有限环境下开发包容性语音技术提供了重要参考。

WAXAL的发布标志着在弥合语言数字鸿沟方面迈出了关键一步。谷歌表示将持续扩展该数据集,希望其能成为非洲语言数字保存的重要资源,并为未来技术创新奠定基础。

中文翻译:

WAXAL:为非洲语言语音技术打造的大规模开放资源
2026年3月6日
Google Research 高级产品经理 Tavonga Siyavora 与项目负责人 Abdoulaye Diack

WAXAL 为非洲语音技术提供了关键的开源基础。该资源包含27种本土语言的大规模自动语音识别(ASR)与文本转语音(TTS)数据,采用高度开放的许可协议,旨在赋能非洲人工智能生态,构建能够更好反映地区独特语言多样性的鲁棒语音系统。

快速了解
虚拟助手、自动转录等语音技术已彻底改变人机交互方式。然而,其发展成果长期集中于少数资源丰富的语言,导致全球数亿人口——尤其是使用超过2000种语言的撒哈拉以南非洲地区居民——难以用母语享受关键技术带来的便利。数年前,Google Research 团队开始着手应对这一挑战。

为满足这一迫切需求,我们推出 WAXAL:一个大规模开放语音数据集,首批涵盖27种撒哈拉以南非洲语言,使用人口超1亿,覆盖26个以上国家。该项目自2021年启动,历经多年努力,并与非洲学术及社区组织合作完成。WAXAL 提供高质量、开放许可的数据,为构建鲁棒语音系统奠定基础。此次发布包含约1,846小时的转录自然语音(用于自动语音识别),以及超过565小时的高保真录音(用于文本转语音)。所有资源均以知识共享许可协议(CC-BY-4.0)发布,旨在推动相关研究,促进开发符合非洲语言特点的包容性语音技术。我们计划持续扩展 WAXAL,纳入更多语言,以持续助力弥合数字鸿沟。

WAXAL 简介
WAXAL 致力于为超1亿使用者解决数据稀缺问题,以赋能区域人工智能研究生态。为支持鲁棒语音技术开发,该语料库整合了两类专项数据集,全面覆盖语音识别与合成任务:

WAXAL 语料库同时聚焦非预设 ASR 数据与高保真 TTS 音频,旨在支持全双工会话系统的开发。具体而言,ASR 部分有助于建模真实场景中多样化的自然语音输入,而高质量 TTS 部分则为生成清晰、自然的语音输出提供了纯净的参考数据。下表列出当前数据集涵盖的27种语言:

植根非洲人工智能生态
WAXAL 项目的核心在于坚持与非洲人工智能生态深度协作、直接贡献。数据采集工作完全由非洲学术及社区组织主导,Google 专家则在世界级数据采集实践方面提供指导。这种协作模式确保了语料库由服务对象共同构建、为其所用;各合作伙伴采用统一方法,分别专注于特定语言子集。我们的合作伙伴包括:马凯雷雷大学(为9种语言采集 ASR 和/或 TTS 数据)、加纳大学(专注于8种语言,采用上述图像引导的 ASR 数据采集方法)。其他重要合作方包括 Digital Umuganda(与亚的斯亚贝巴大学合作),在多种地区语言的 ASR 采集中发挥关键作用;Media Trust、Loud n Clear 以及非洲数学科学研究所塞内加尔中心则主导了多种地区语言的高质量录音室 TTS 录制。

该框架基于一项根本原则:合作伙伴保留所采集数据的所有权,并共同承诺将所有数据集向更广泛的社区开放。这种深度协作与开放共享的理念,已催生多项重要的衍生研究与成果:

总结与未来方向
WAXAL 是弥合数字鸿沟的关键里程碑,为27种撒哈拉以南非洲语言提供了高质量、开放获取的语音资源。通过与非洲学术及社区组织的深度协作,这一项目赋能了非洲大陆的人工智能生态,并保护了语言多样性。我们希望 WAXAL 将持续作为非洲语言数字保存的重要资源,并为未来创新奠定基础。Google 将持续投入,计划不断扩展 WAXAL 数据集。

致谢
我们衷心感谢以下合作伙伴为缩小语言鸿沟、为非洲大陆数百万使用者构建更包容的数字未来所做出的重要贡献:马凯雷雷大学、加纳大学、Digital Umuganda、亚的斯亚贝巴大学、非洲数学科学研究所塞内加尔中心、Media Trust 以及 Loud and Clear Communications Ltd。

英文来源:

WAXAL: A large-scale open resource for African language speech technology
March 6, 2026
Tavonga Siyavora, Senior Product Manager, and Abdoulaye Diack, Program Manager, Google Research
WAXAL provides a critical, open-access foundation for African speech technology. Featuring a large corpus of ASR and TTS data for 27 native languages under a highly permissive license, WAXAL empowers the African AI ecosystem to build robust speech systems that better reflect the region's unique linguistic diversity.
Quick links
Voice-enabled technologies like virtual assistants and automated transcription have transformed how we interact with computers. However, their benefits disproportionately favor a handful of high-resource languages. This divide has left hundreds of millions of people — particularly in Sub-Saharan Africa, home to over 2,000 distinct languages — unable to access essential technology in their native tongues. Several years ago, the team at Google Research set out to help tackle this problem.
To address this critical need, we introduce WAXAL: a large-scale, openly accessible speech dataset that initially covers 27 Sub-Saharan African languages spoken by over 100 million speakers across more than 26 countries. Developed through a multi-year effort beginning in 2021, in collaboration with African academic and community organizations, WAXAL provides the high-quality, permissively licensed data necessary to build robust speech systems. Setting a foundational milestone, this initial release features approximately 1,846 hours of transcribed natural speech for automatic speech recognition (ASR) and over 565 hours of high-fidelity recordings for text-to-speech (TTS). We are releasing these resources under a Creative Commons license (CC-BY-4.0) to catalyze research and enable inclusive voice-enabled technologies tailored to the unique linguistic characteristics of the continent. We intend for the WAXAL collection to continuously evolve and expand to include additional languages as part of our ongoing effort to bridge the digital divide.
Introducing WAXAL
By addressing critical data scarcity for over 100 million speakers, WAXAL aims to empower the regional AI research ecosystem. To support the development of robust speech technologies, the corpus integrates two specialized datasets designed to provide comprehensive coverage for both speech recognition and synthesis tasks.

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读