«

ATLAS:多语言模型实用扩展法则

qimuai 发布于 阅读:24 一手编译


ATLAS:多语言模型实用扩展法则

内容来源:https://research.google/blog/atlas-practical-scaling-laws-for-multilingual-models/

内容总结:

谷歌发布ATLAS多语言模型扩展定律,为非英语AI研发提供数据指南

2026年1月27日,谷歌云学生研究员Shayne Longpre与谷歌DeepMind研究科学家Sayna Ebrahimi共同发布了一项名为“ATLAS”的多语言模型扩展定律研究成果。该研究旨在解决当前人工智能领域一个显著失衡的问题:尽管超过50%的AI模型使用者母语为非英语,但公开的模型扩展定律研究却过度集中于英语。

这项将在ICLR 2026大会上展示的研究,基于迄今为止规模最大的公开多语言预训练分析,涵盖了从1000万到80亿参数的774次训练实验,涉及超过400种语言的数据,并在48种语言上进行了评估。研究团队据此估算了1400对语言之间的协同效应,并提出了“自适应迁移扩展定律”(ATLAS),为开发者构建多语言模型时如何平衡训练数据中的语言配比与模型规模提供了实用指导。

ATLAS的核心突破:从单语到多语的科学规划

与传统专注于单语环境的扩展定律不同,ATLAS是一个简单、实用的框架,用于确定多语言环境下训练模型的最佳规模、数据量和语言组合。它通过三大组件实现这一目标:

  1. 跨语言迁移矩阵:用于识别哪些语言组合训练效果最佳。
  2. 多语言扩展定律:为指导模型在支持更多语言时,如何高效扩展模型规模和数据量提供依据。
  3. 训练策略规则:帮助决策何时应从零开始预训练模型,何时应基于现有多语言检查点进行微调。

ATLAS通过分析数百次多语言实验(使用MADLAD-400语料库,涵盖400多种语言的超过750次训练)得出结论。其创新之处在于能够量化分析目标语言数据、相似语言数据(如加泰罗尼亚语可从西班牙语、葡萄牙语等拉丁语系语言中受益)以及其他所有语言数据,各自对目标语言性能的实际贡献或干扰。

关键发现与实用洞察

对开发者的意义

ATLAS为全球模型开发者提供了一份超越英语中心主义的路线图。开发者可直接应用其指导:

该研究有望推动新一代多语言模型的发展,更好地服务于全球数十亿非英语使用者。

中文翻译:

ATLAS:多语言模型实用扩展定律
2026年1月27日
Shayne Longpre,谷歌云学生研究员;Sayna Ebrahimi,谷歌DeepMind研究科学家

我们为大规模多语言模型引入了新的扩展定律。ATLAS为如何混合数据并训练最高效的模型,以服务于英语之外的语言提供了指导。

快速链接

超过50%的AI模型用户使用非英语语言,然而公开可用的扩展定律绝大多数都集中在英语上。这种不平衡在公共研究中造成了关键空白,使得那些为数十亿国际和多语言用户服务的模型构建者,在针对非英语语言或特定语言混合进行开发时,缺乏关于效率、质量和成本等关键决策的数据驱动指导。

在将于ICLR 2026发表的论文《ATLAS:用于多语言预训练、微调及解码“多语言诅咒”的自适应迁移扩展定律》中,我们旨在填补这一空白。我们展示了迄今为止最大的公开多语言预训练研究,涵盖了从1000万到80亿参数的模型,共774次训练运行。研究数据涵盖400多种语言,并在48种语言上进行了评估。基于这项研究,我们估计了1400对语言之间的协同效应,并引入了用于构建多语言模型的自适应迁移扩展定律,使实践者能够高效地平衡训练数据中的语言混合与模型规模。

ATLAS:适应多语言混合的单一扩展定律

ATLAS是一种简单、实用的方法,用于确定训练的最佳模型规模、数据量和语言混合。与专注于单语环境的传统扩展定律不同,ATLAS为更复杂的多语言环境提供了这些建议。它通过利用多种不同语言的数据,专门优化目标语言(例如加泰罗尼亚语)的性能。ATLAS通过三个组成部分扩展了这些传统扩展定律原则:

ATLAS通过基于数百次多语言实验(使用MADLAD-400语料库,在400多种语言上进行了超过750次运行)进行训练,并考虑三种不同的数据源来实现这一点:1)目标语言,2)根据实证分析得出的相似迁移语言(例如,加泰罗尼亚语可能包括西班牙语、葡萄牙语和意大利语等拉丁语系语言),以及3)所有其他语言。这种新颖的方法使该定律能够了解每个数据源实际上对目标语言有多大帮助或阻碍,这是先前定律所不具备的能力。

评估

我们使用MADLAD-400数据集来评估ATLAS在预测模型在新模型规模、不同训练数据量或新语言混合下的表现方面的准确性。为此,我们在单语、双语和大规模多语言设置中,通过超过750次独立运行,使用对词汇不敏感的损失来衡量性能。我们的评估表明,ATLAS始终优于先前的工作。

针对六种语言——英语、法语、俄语、中文、印地语和斯瓦希里语——我们分析了ATLAS如何预测最佳模型规模和数据规模应如何扩展。当我们比较不同语言的最佳扩展轨迹时,我们得出了两个观察结果。这些曲线看起来惊人地相似,但使用多语言词汇表或完全多语言数据进行训练会带来计算效率的代价——尤其是对英语而言。低资源语言的曲线会因数据耗尽而向上弯曲,模型难以从数据重复中学习。ATLAS明确地建模了这些效应。

跨语言迁移图谱

接下来,我们大规模测量了语言间的协同效应和干扰,生成了一个量化在语言A上训练对语言B有多大帮助(或损害)的矩阵。我们的结果显示了非常直观的结论:挪威语主要受益于瑞典语和德语,马来语受益于印尼语,阿拉伯语受益于希伯来语。英语、法语和西班牙语是训练时帮助最广泛的语言,这可能是由于网络上这些语言的文本具有固有的高质量、异质性和数量。

分析表明,正向迁移的最大预测因素是共享文字系统和/或语系,这在统计学上具有显著性。英语对许多语言有帮助,但并非全部;而且迁移并不总是对称的(A对B的帮助可能大于B对A的帮助)。这些测量结果将“直觉”转化为数据驱动的语言混合选择。

用清晰的扩展规则解码“多语言诅咒”

“多语言诅咒”是一种现象,即在多种语言上训练的模型,由于模型容量有限,每增加一种新语言,性能就会下降。我们用一个扩展定律将这个问题形式化,该定律不仅考虑模型规模、训练数据量,还考虑数据中的语言数量。将该定律拟合到许多实验中后,我们发现,虽然增加语言会带来轻微的容量代价,但存在高度的正向迁移。这意味着,如果我们想训练一个模型以支持两倍数量的语言,那么我们应该将模型规模增加1.18倍,总数据量增加1.66倍。这相当于在2K种语言中,每种语言占数据的83%。尽管每种语言的数据变少,但从所有语言学习中产生的正向协同效应,意味着导致性能下降的容量限制得到了抵消。

何时预训练 vs. 微调多语言检查点

对于十种语言,我们比较了获得最佳性能模型的两种路径:从头开始预训练目标语言模型,或从一个强大的多语言“Unimax”检查点进行微调。选项可能以最少的额外计算获得最佳性能,因为该模型已经在多种语言上相当强大。然而,如果模型可以训练更长时间,那么选项通常能产生更好的长期结果。我们的目标是基于模型构建者拥有的计算资源,找到两条训练曲线之间的交叉点。

我们的结果表明,微调在早期胜出,但一旦能够负担足够的训练量,预训练就会超越。在我们的运行中,对于具有20亿参数的模型,交叉点通常出现在约1440亿到2830亿个标记之间。接着,我们将交叉点绘制为模型规模的函数。这提供了一个具体的、考虑预算的经验法则:如果你的标记和计算预算低于你模型规模的交叉点,就从多语言检查点开始;否则,从头开始预训练通常最终会领先。请注意,确切的阈值取决于基础模型和混合方式。

亲自尝试

通过超越以英语为中心的扩展,ATLAS为全球模型开发者提供了一份路线图。它可以直接应用于扩展英语之外的语言模型,帮助开发者:

我们希望这项工作能够催生新一代的多语言模型,为数十亿非英语使用者服务。

致谢

我们感谢Luke Zettlemoyer、Catherine Arnett和Stella Biderman对论文的有益讨论。我们感谢Biao Zhang和Xavier Garcia在早期方向上的技术讨论和反馈。

英文来源:

ATLAS: Practical scaling laws for multilingual models
January 27, 2026
Shayne Longpre, Google Cloud Student Researcher, and Sayna Ebrahimi, Research Scientist, Google DeepMind
We introduce new scaling laws for massively multilingual language models. ATLAS provides guidance on how to mix data and train the most effective models to serve languages beyond English.
Quick links
Over 50% of AI model users speak non-English languages, yet publicly accessible scaling laws are overwhelmingly focused on the English language. This imbalance creates a critical gap in public research, leaving model builders, tasked with serving billions of international and multilingual users, without data-driven guidance for key development decisions about efficiency, quality, and cost when building for non-English languages or with specific language mixtures.
In “ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality”, to be presented at ICLR 2026, we aim to address this gap. We present the largest public multilingual pre-training study to date, spanning 774 training runs across 10M–8B parameter models. It includes data spanning 400+ languages and evaluations in 48 languages. As a result of this study, we estimate the synergies between 1,400 pairs of languages, and introduce adaptive transfer scaling laws (ATLAS) for building multilingual models that enable practitioners to efficiently balance the mix of languages in training data with model size.
ATLAS: A single scaling law that adapts to multilingual mixtures
ATLAS is a simple, practical approach to determining optimal model size, data volume, and language mixtures for training. Unlike traditional scaling laws that focus on monolingual settings, ATLAS provides these recommendations for more complex, multilingual environments. It specifically optimizes performance on a target language (e.g., Catalan) by leveraging data from multiple different languages. ATLAS extends these traditional scaling law principles through three components:

谷歌研究进展

文章目录


    扫描二维码,在手机上阅读