«

实时语音翻译

qimuai 发布于 阅读:32 一手编译


实时语音翻译

内容来源:https://research.google/blog/real-time-speech-to-speech-translation/

内容总结:

近日,谷歌深度思维与核心机器学习团队联合发布了一款突破性语音实时翻译技术。该技术能在外语对话过程中,仅用两秒延迟即可用说话人原声生成翻译音频,让跨语言交流如同面对面交谈般自然流畅。

传统语音翻译系统通常采用"语音转文字→文字翻译→语音合成"的串联模式,导致4-5秒的延迟,且存在误差累积、缺乏语音个性化等问题。新技术通过三大创新突破瓶颈:首先构建了可扩展的时序对齐数据采集系统,能自动筛选优质语音样本;其次采用基于AudioLM框架的流式传输架构,实现对连续音频的实时处理;最后通过SpectroStream编解码技术,将音频转化为分层表征的令牌序列,在保证音质的同时实现高效传输。

目前该技术已成功应用于谷歌会议系统及Pixel 10设备的端侧功能,支持英语与西班牙语、德语、法语、意大利语、葡萄牙语五种拉丁语系语言的实时互译。研究团队透露,印地语等更多语种的适配工作也在积极推进中。为确保技术合理使用,系统会在每次翻译前明确提示用户生成内容为合成语音。

这项突破使《星际迷航》中描绘的实时宇宙翻译器走向现实,标志着人工智能在消除人类语言隔阂的道路上迈出关键一步。随着算法持续优化,未来有望实现更符合语境的意义翻译,进一步推动全球无障碍沟通。

中文翻译:

实时语音翻译技术
2025年11月19日
Google DeepMind研究工程师 Karolis Misiunas 与 Google Core ML 软件工程师 Artsiom Ablavatski 联合撰文

我们推出了一款创新的端到端语音翻译模型,能以原说话者的声音实现仅延迟2秒的实时翻译——这项憧憬已久的技术终于成为现实,让跨语言交流变得更加自然流畅。

实时沟通是工作与生活中不可或缺的环节。当跨越语言障碍进行远程对话时,仅依靠最先进的翻译字幕难以实现真正的情感共鸣,因为它们缺乏鲜活个性与实时反馈能力。语音翻译技术的问世通过直接生成翻译音频弥补了这一缺陷,使交流更自然。现有语音翻译系统通常存在明显延迟(4-5秒)、容易产生误差累积,且普遍缺乏个性化特征。

今日我们介绍的创新型端到端语音翻译模型突破了这些限制,能以原声实现仅2秒延迟的实时翻译。该创新架构采用流式处理框架,结合时间同步数据训练,显著缩短了原始语音与翻译语音之间的延迟。为支持多语言扩展,我们开发了可扩展的时间同步数据采集流程,逐步将更多语言纳入系统。该技术已在实时性要求极高的应用场景中成功验证其有效性。

级联式语音翻译技术
早期实时语音翻译技术采用多模块级联方案:

尽管各环节组件质量优异,但实现流畅的实时语音翻译仍面临三大挑战:

新型端到端个性化语音翻译方案
为实现技术突破,我们构建了可扩展数据采集流程并开发出端到端模型,实现仅2秒延迟的实时直译:

| 个性化语音翻译应用示例:西班牙语原声转译英语 |
可扩展数据采集流程
针对特定语言对,首先进行原始音频采集。我们采用多样化音源(包括文本转语音模型生成数据),经过清洁过滤确保单说话人源语言音频与合理噪声水平。完成初始采集后,通过语音识别转写字幕文本,利用强制对齐算法生成时间戳标注(音频-文本映射),剔除对齐失败的片段。

剩余片段经机器翻译转换为目标语言后,通过自动化过滤器验证译文准确性与输入文本对应关系。随后对原文字幕与译文进行对齐处理,生成对应时间戳标注(文本-译文映射)。

通过定制化文本转语音引擎将译文转换为音频,在保持原声音色特征的同时确保输出自然度。流程最终对译文与生成语音进行强制对齐(语音-文本映射)。

利用前三步生成的对齐结果,计算其重叠区域得出源目标音频对齐掩码,这些掩码将指导训练过程中的损失计算。

未满足延迟要求或无效对齐的翻译将从训练集中剔除。剩余对齐数据以最长60秒片段训练流式语音翻译模型,训练中同步应用多种音频增强技术,包括采样率调整、混响、饱和与降噪处理。

实时语音翻译架构
端到端语音翻译模型基于基础Transformer模块,包含两大核心组件:

该模型创新性地将音频表示为二维令牌集合(即RVQ音频令牌)。如下图所示,X轴代表时间,Y轴代表描述当前音频段的令牌集合。通过机器学习编解码器,特定集合中的所有令牌可即时合成为音频流。令牌数量控制每段音频质量,更多令牌意味着更高保真度。模型按序预测令牌,优先处理起始位置令牌。通常16个令牌足以高质量表征100毫秒音频片段。

除音频令牌外,模型还输出一个文本令牌。该文本令牌既为音频生成提供额外先验信息,也支持直接计算BLEU指标而无需依赖代理语音识别系统。

训练过程中对模型施加逐令牌损失以确保翻译准确性。通过右移真实值令牌可调整模型预测延迟(即前瞻量),从而根据目标语言复杂度灵活配置。实时对话通常采用标准2秒延迟,适用于多数语言。虽然更长的前瞻量能通过提供更多上下文提升翻译质量,但会对实时交流体验产生负面影响。

除内部2秒延迟外,模型推理时间也会影响系统整体延迟。为实现实时性能,我们实施了混合低比特(int8与int4)量化、优化分类器自由引导预计算等多种优化技术。

以下是通过训练模型对不同语言对进行翻译的示例(真实值取自公开CVSS数据集): 语言方向 输入音频 翻译音频 真实值
西班牙语转英语
沿海地区空气中水分子聚集更为密集
英语转西班牙语
其旗舰舰艇"可畏号"航母遭神风特攻队击中,但未造成严重损伤
德语转英语
电工用铝箔片连接保险丝
英语转德语
玛格丽特正竭尽全力试图阻止即将发生的灾难
意大利语转英语
点击右侧铃铛图标即可启用Pash通知,实现实时更新
英语转意大利语
民间流传着关于地主、黑手党与保守党代表及其人尽皆知的姓名的传说
葡萄牙语转英语
本文依据相应许可证提供
英语转葡萄牙语
穿蓝衬衫的男子正在观察他面前投影的内容
法语转英语
志愿消防员是我们民防体系的重要组成部分
英语转法语
故此,本届政府与多数派联盟需对此局面全权负责
经训练的模型对英语、西班牙语、德语、意大利语、葡萄牙语和法语生成的双向翻译示例及对应真实值

实际应用场景
新一代端到端语音翻译技术已应用于两大关键领域,彰显实时跨语言交流的重要性:现已在Google Meet服务器端部署,并作为内置功能集成于新款Pixel 10设备。虽然两款产品采用不同的技术实现策略,但共享训练数据与模型架构。Pixel设备端语音翻译功能同时采用级联方案以最大化语言覆盖范围。为防范功能滥用,每次翻译前均会告知终端用户该翻译为合成生成。

当前端到端模型在五大拉丁语系语言对(英语与西班牙语、德语、法语、意大利语、葡萄牙语互译)中表现稳定,支撑了我们的首发产品部署。我们在其他语言(如印地语)中也观察到良好潜力,计划持续推进开发。未来改进将聚焦于增强模型前瞻动态性,使语音翻译技术能自适应处理语序与英语迥异的语言,实现更注重上下文语境而非逐字对应的翻译效果。

我们相信这项语音翻译技术的突破性进展将彻底革新实时跨语言交流,使长久以来的构想成为现实。

致谢
衷心感谢所有项目贡献者,他们的关键性工作让此技术得以实现。特别鸣谢同事Kevin Kilgour、Pen Li、Félix de Chaumont Quitry、Michael Dooley、Jeremy Thorpe、Mihajlo Velimirović、Alex Tudor、Christian Frank、Daniel Johansson、Hanna Silén、Christian Schuldt、Henrik Lundin、Esbjörn Dominique、Marcus Wirebrand、Daniel Kallander、Pablo Barrera González、Huib Kleinhout、Niklas Blum、Fredric Lindstrom、Esha Uboweja、Karthik Raveendran、Frédéric Rechtenstein、李兴、林盛毅、杨成、Jason Fan、Matsvei Zhdanovich、魏佳宁与Matthias Grundmann。

英文来源:

Real-time speech-to-speech translation
November 19, 2025
Karolis Misiunas, Research Engineer, Google DeepMind, and Artsiom Ablavatski, Software Engineer, Google Core ML
We introduce an innovative end-to-end speech-to-speech translation (S2ST) model that enables real-time translation in the original speaker's voice with only a 2-second delay — bringing long-imagined technology into reality and making cross-language communication more natural.
Real-time communication is an integral part of both our professional and personal lives. When speaking to people remotely across language barriers, it can be difficult to truly connect by just relying on state-of-the-art translated captions, as they lack personality and real-time responsiveness essential for fluid conversation. The arrival of speech-to-speech translation (S2ST) bridges this gap by directly generating translated audio, leading to more natural communication. Existing speech-to-speech translation systems often incur significant delays (4–5s), tend to accumulate errors, and typically lack personalization.
Today we describe an innovative end-to-end S2ST model that overcomes these limitations, enabling live translation in the original speaker's voice with only 2 second delay. The novel architecture leverages a streaming framework and, with training on time-synchronized data, significantly reduces the delay between the original input and the translated speech. To support a breadth of languages, we introduce a scalable time-synced data acquisition pipeline that allows us to gradually expand the system to include more languages. This technology has demonstrated its effectiveness through successful deployment in real-time sensitive use cases.
Cascaded S2ST
Prior real-time speech-to-speech technologies employed a cascaded pipeline of individual processing blocks:

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读