小米不造车了?不,它开源了可能改变未来的机器人模型。

最新AI落地实操,点击了解:https://qimuai.cn/
当你叫Siri定个闹钟,它能秒回。但如果你让一个机器人“把桌上那杯水递给我”,它可能会思考到让你以为网络断了线。
这就是今天AI世界最割裂的体验:虚拟智能对答如流,物理智能却常常“卡壳”。
为什么?核心瓶颈藏在三个字母里:VLA(视觉-语言-动作)。让机器看懂、听懂、并流畅动起来,太难了。模型稍微大点,思考时间就长得像在“神游”;动作指令一复杂,机器人就容易“抽搐”。
但今天,这个僵局被撬开了一道缝。
小米,把它的第一代机器人VLA大模型,直接开源了。
这个名为 Xiaomi-Robotics-0 的模型,参数量47亿。它最核心的突破,就一句话:在消费级显卡上,实现了实时、流畅、精准的机器人动作控制。
过去VLA模型的延迟和动作断裂,被它基本扫进了历史。
它怎么做到的?设计思路非常聪明:给机器人装上“大脑”和“小脑”。
- “大脑”(视觉语言模型) 负责高级认知。你说“请把乱糟糟的毛巾叠好”,它能理解这个模糊指令,还能看清毛巾在哪儿、怎么个“乱”法。
- “小脑”(动作专家模型) 负责精准执行。它用一项叫DiT的技术,把“大脑”的意图,翻译成一套行云流水的动作序列——伸手、抓取、对折、摆放。
两者各司其职,协同工作。既避免了传统模型“学了动作就忘了视觉”的毛病,又让动作生成快如闪电。
结果就是,在LIBERO、SimplerEnv、CALVIN这三大国际主流的机器人仿真测试中,它包揽了所有细分项目的冠军。
纸上成绩厉害,真机实操呢?
在演示中,搭载该模型的双臂机器人,已经能精准处理刚性和柔性物体。拆卸乐高积木、把随意放置的毛巾整齐叠好……这些需要触觉反馈和精细操作的任务,它完成得相当淡定。
为了练就这套本领,它的“训练量”大得惊人:2亿条机器人轨迹数据、超8000万视觉-语言样本打底。甚至专门用了338小时的乐高拆卸数据和400小时的毛巾折叠数据来做专项训练。
先进行跨模态预训练,打好基础;再用DiT技术进行动作序列的专项训练,让动作极致平滑。
而这一切的终点,不是实验室的橱窗。
小米这次选择了彻底开源:模型权重、完整代码、技术报告,全部公开。
这意味着什么?意味着任何开发者、研究团队,甚至是有兴趣的极客,都有可能用一张消费级显卡,启动一个拥有“物理智能”的机器人项目。具身智能的门槛,被前所未有地拉低了。
从虚拟世界里的对答如流,到物理世界里的得心应手,我们终于看到了一条清晰的技术路径。当一个机器人能真正理解“帮我收拾一下桌子”并流畅完成时,改变的将不仅仅是我们的生活方式。
所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。
文章标题:小米不造车了?不,它开源了可能改变未来的机器人模型。
文章链接:https://www.qimuai.cn/?post=3291
本站文章均为原创,未经授权请勿用于任何商业用途