«

百度新模型让AI理解图片,仅3B参数却超越280亿模型性能。

qimuai 发布于 阅读:71 AI新闻


百度新模型让AI理解图片,仅3B参数却超越280亿模型性能。

最新AI落地实操,点击了解:https://qimuai.cn/


标题:这个AI能“脑补”图片了!百度新模型让机器真正看懂世界

你遇到过这种情况吗?

发给AI一张表格,它只读出数字却看不懂关联逻辑;上传医学影像,它机械描述病灶却给不出诊断建议;甚至看到一张梗图,它完全get不到笑点。

多模态AI的痛点一直在于:它们只是在“识别”图像,而不是在“理解”图像。

但今天要聊的百度ERNIE-4.5-VL,可能会改变这个现状。

这不是升级,是进化

当其他模型还在努力让文字和图像“和平共处”时,ERNIE-4.5-VL做了一件大胆的事——给AI装了两个独立又协作的“大脑”。

一个专攻文字,一个专注图像。

这种异构混合专家架构,就像给AI配备了文字专家和视觉专家团队。看到一张产品图,文字专家分析描述,视觉专家解析细节,然后两人坐下来一起讨论,得出更准确的结论。

真正让图片“说话”的能力

ERNIE-4.5-VL最吸引人的是它的“图像思考”功能。

这可不是简单的识别——它能放大图片局部进行细致观察,能在图片库中进行智能搜索,更能进行多步视觉推理。

想象一下:给AI一张复杂的财务报表图表,它不仅能读出数据,还能分析趋势、指出异常,甚至给出业务建议。这已经超越了“识别”,进入了“思考”的领域。

两种模式,应对不同场景

你需要快速反应时,切换到“感知模式”——快速解析,立即回应。

需要深度分析时,启动“思考模式”——像专家一样层层推理,给出有逻辑的结论。

这种灵活性让它在实际应用中游刃有余:教育辅导时耐心推理,电商场景中快速响应,医疗影像里严谨分析。

小身材,大智慧

最让人意外的是,这么一个强大的模型,激活参数只有3B。

通过极致量化和高效的架构设计,它用很小的算力成本,实现了接近280亿参数模型的理解能力。这对中小企业来说是个好消息——高性能AI不再是大厂的专属玩具。

实际表现如何?

在MathVista、MMMU这些多模态“高考”中,ERNIE-4.5-VL的成绩已经紧追甚至部分超越了当前的顶级模型。特别是在需要多步推理的视觉谜题、复杂图表理解任务上,它的“思考模式”展现出了明显优势。

这意味着什么?

从教育到医疗,从电商到办公,所有需要同时处理图文信息的场景,都可能被重新定义。

智能客服能真正理解用户发来的截图,在线教育能详细解析几何证明题,医疗AI能辅助医生分析影像资料——这些都不再是遥远的概念,而是正在落地的能力。

当AI不仅能“看到”图片,还能“理解”图片背后的逻辑和含义,我们与机器的交互方式将彻底改变。


所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读