«

免费商用!大模型现在能看图办事了,9B参数轻量版开源。

qimuai 发布于 阅读:46 AI新闻


免费商用!大模型现在能看图办事了,9B参数轻量版开源。

最新AI落地实操,点击了解:https://qimuai.cn/

刚刚,大模型“看图办事”进入原生时代。

不是翻译图片,不是描述场景,而是真正理解你扔进去的截图、文档、商品图,然后直接动手干活

智谱刚刚开源的GLM-4.6V系列,干的就是这件事。它把多模态能力和工具调用,焊死在了一起了。

先说最实在的:降价,和免费。

相比上一代,GLM-4.6V的API价格直接腰斩。更关键的是,他们同步开源了一个9B参数的轻量版——GLM-4.6V-Flash。这个版本,免费商用。

这意味着什么?意味着你个人开发者,或是创业小团队,现在就能零成本地,在本地电脑或服务器上,跑起一个能“看得懂”并能“操作用具”的AI。门槛,被一脚踢开了。


一、核心进化:从“看见”到“执行”,一步到位

以前的流程是什么样的?

你给AI一张图,比如一张复杂的财务报表截图。AI先得“看”懂,用文字描述一遍:“这是一张2023年Q4的财报,营收xxx,利润xxx……”然后,你再把这些文字,交给另一个文本模型或程序,去调用数据分析工具。

信息折损了,步骤繁琐了,链路太长了。

GLM-4.6V的想法极其直接:“图像即参数,结果即上下文”。

你扔给它一张商品图,它理解后,能直接调用电商搜索API,把相似商品给你找出来。
你扔给它一张数据图表截图,它理解后,能直接调用数据分析工具,生成趋势报告。
你扔给它一个软件界面截图,它理解后,能直接触发自动化操作,完成点击、输入等任务。

视觉输入,直接成为驱动工具的燃料。它不再是需要被“翻译”的客体,而是行动本身的一部分。

二、能力底座:128K上下文,给长视频理解铺路

“看图办事”的前提,是得看得足够细、记得足够久。

GLM-4.6V把训练时的上下文窗口拉到了128K tokens。这个数字,在同规模模型里已属顶尖。

它不仅意味着能处理更长的图文对话,更指向了一个充满想象力的场景:长视频理解

几分钟乃至十几分钟的视频,包含海量视觉帧和语音文本信息。128K的超长上下文,为模型消化、串联这些信息提供了可能。它能记住视频前半段出现的某个细节,并在后半段做出呼应和推理。

在MMBench、MathVista等30多个权威多模态评测中,它的成绩相比上一代有显著提升。底子,打得很牢。

三、生态野心:不只是一个模型,而是一套“行动体系”

智谱显然不满足于只发布一个能力更强的模型。

他们为GLM-4.6V定制了8大类场景的MCP工具,并将其深度融入了自家的GLM Coding Plan生态。模型被设计成可以自主判断、选择并调用最合适的接口。

换句话说,智谱在试图提供一个“多模态Agent统一底座”。开发者基于它,可以更容易地搭建出能自主完成复杂任务的智能体:从读懂一份产品手册,到自动生成配置清单并下单采购;从分析用户提交的界面bug截图,到自动在代码仓库中定位问题并提交修复报告。

链条被打通了。AI的“手”和“眼”,第一次在底层实现了原生协作。


开源、免费、降价、能力跃升。

智谱这轮组合拳,意图非常清晰:用最具诚意的技术方案和商业策略,快速抢占“多模态智能体”这个下一战场的开发者生态。当视觉模型能原生地驱动万千工具,我们与机器交互的方式,将从“语言命令”全面升级为“视觉意图”。

那个“你给它看什么,它就帮你做什么”的时代,开关已经按下。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读