免费商用！大模型现在能看图办事了，9B参数轻量版开源。

qimuai 发布于 2025-12-9 18:02 阅读：46 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

刚刚，大模型“看图办事”进入原生时代。

不是翻译图片，不是描述场景，而是真正理解你扔进去的截图、文档、商品图，然后直接动手干活。

智谱刚刚开源的GLM-4.6V系列，干的就是这件事。它把多模态能力和工具调用，焊死在了一起了。

先说最实在的：降价，和免费。

相比上一代，GLM-4.6V的API价格直接腰斩。更关键的是，他们同步开源了一个9B参数的轻量版——GLM-4.6V-Flash。这个版本，免费商用。

这意味着什么？意味着你个人开发者，或是创业小团队，现在就能零成本地，在本地电脑或服务器上，跑起一个能“看得懂”并能“操作用具”的AI。门槛，被一脚踢开了。

以前的流程是什么样的？

你给AI一张图，比如一张复杂的财务报表截图。AI先得“看”懂，用文字描述一遍：“这是一张2023年Q4的财报，营收xxx，利润xxx……”然后，你再把这些文字，交给另一个文本模型或程序，去调用数据分析工具。

信息折损了，步骤繁琐了，链路太长了。

GLM-4.6V的想法极其直接：“图像即参数，结果即上下文”。

你扔给它一张商品图，它理解后，能直接调用电商搜索API，把相似商品给你找出来。
你扔给它一张数据图表截图，它理解后，能直接调用数据分析工具，生成趋势报告。
你扔给它一个软件界面截图，它理解后，能直接触发自动化操作，完成点击、输入等任务。

视觉输入，直接成为驱动工具的燃料。它不再是需要被“翻译”的客体，而是行动本身的一部分。

“看图办事”的前提，是得看得足够细、记得足够久。

GLM-4.6V把训练时的上下文窗口拉到了128K tokens。这个数字，在同规模模型里已属顶尖。

它不仅意味着能处理更长的图文对话，更指向了一个充满想象力的场景：长视频理解。

几分钟乃至十几分钟的视频，包含海量视觉帧和语音文本信息。128K的超长上下文，为模型消化、串联这些信息提供了可能。它能记住视频前半段出现的某个细节，并在后半段做出呼应和推理。

在MMBench、MathVista等30多个权威多模态评测中，它的成绩相比上一代有显著提升。底子，打得很牢。

智谱显然不满足于只发布一个能力更强的模型。

他们为GLM-4.6V定制了8大类场景的MCP工具，并将其深度融入了自家的GLM Coding Plan生态。模型被设计成可以自主判断、选择并调用最合适的接口。

换句话说，智谱在试图提供一个“多模态Agent统一底座”。开发者基于它，可以更容易地搭建出能自主完成复杂任务的智能体：从读懂一份产品手册，到自动生成配置清单并下单采购；从分析用户提交的界面bug截图，到自动在代码仓库中定位问题并提交修复报告。

链条被打通了。AI的“手”和“眼”，第一次在底层实现了原生协作。

开源、免费、降价、能力跃升。

智谱这轮组合拳，意图非常清晰：用最具诚意的技术方案和商业策略，快速抢占“多模态智能体”这个下一战场的开发者生态。当视觉模型能原生地驱动万千工具，我们与机器交互的方式，将从“语言命令”全面升级为“视觉意图”。

那个“你给它看什么，它就帮你做什么”的时代，开关已经按下。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读