刚刚开源！这个模型推理成本暴降，性能却超越400亿参数巨头。

qimuai 发布于 2025-9-29 18:02 阅读：18 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

刚刚开源！这个模型让AI推理成本暴降，性能却碾压同级选手

昨晚，科技圈又被一则开源消息刷屏了。

蚂蚁百灵团队正式放出了Ring-flash-2.0，一个被称为“高性能思考模型”的新玩家。别被“思考模型”这个词唬住，你只需要知道：它在数学、代码和逻辑推理上，表现出了超越同级选手的实力。

关键是，它还很省钱。

百亿参数，只激活一个零头

Ring-flash-2.0的总参数量是1000亿（100B），听起来是个庞然大物？但它的巧妙之处在于，每次实际推理时，只有6.1亿（6.1B）参数被激活。

你可以把它想象成一个超大型专家库，里面站满了1000位各领域的顶尖专家。但每次你提问，系统只会精准地叫出最相关的6位专家来为你解答。人海战术？不，这是精准狙击。

这种被称为MoE（混合专家模型）的架构，配合其自研的MTP层，核心目的就一个：用最小的算力代价，办最漂亮的事。单次推理的成本，因此被极大压低。

成绩单亮眼，不只是“够用”

光省钱不够，性能才是硬道理。来看它的成绩单：

最关键的是，它的综合性能已经达到甚至超越了某些400亿参数致密模型的顶尖水平。用更少的“劲”，做出了更好的“工”。

秘密武器：“棒冰”算法与长周期训练

性能飞跃的背后，是训练方法的革新。

团队采用了独创的“棒冰（icepop）算法”和长周期强化学习训练。简单理解，这就像是给AI请了一位顶级的私人教练，不是教它死记硬背，而是通过大量、长期的“高难度真题”训练，让它真正学会思考的套路，并且越来越稳定。

这解决了大模型在复杂推理上一直以来的痛点：不是不会答，而是容易在长链条的思考中跑偏或崩溃。现在，Ring-flash-2.0把这条路给走通了、走稳了。

行业风向变了

Ring-flash-2.0的开源，释放了一个强烈的信号。

大模型的竞争，早已不再是单纯攀比参数量的“数字游戏”。战场已经转移到了“高性价比”：谁的推理效率更高？谁的部署成本更低？谁能在实际业务中真正用得起、效果好？

这款模型，正好踩在了这个节拍上。它证明了“MoE架构 + 长链思考 + 强化学习”这条技术路线，不仅能走通，还能走得非常出色，为行业立下了一个新的工程标杆。

目前，模型已在HuggingFace和ModelScope同步开源。无论是研究者还是开发者，都可以立刻上手把玩，亲测它的实力。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读