«

智谱AI开源AutoGLM,但手机自动化的隐私隐患竟被这样破解……

qimuai 发布于 阅读:53 AI新闻


智谱AI开源AutoGLM,但手机自动化的隐私隐患竟被这样破解……

最新AI落地实操,点击了解:https://qimuai.cn/

你的手机,即将拥有一个“数字分身”。

不是Siri,也不是小爱同学。而是一个真正能“看懂”你的手机屏幕,像你一样点开微信、滑动抖音、在美团下单、去携程订票的AI助手。

就在今天,国内AI巨头智谱AI,把这项名为“AutoGLM”的核心能力,彻底开源了。

这意味着什么?意味着“让AI操作手机”这项曾经酷炫且封闭的技术,现在变成了一盒乐高积木,摆在了所有开发者和厂商面前。

它到底能干什么?

简单说,AutoGLM的逻辑和人类一模一样:眼睛看屏幕,大脑做决策,手指去操作。

它先对你的手机界面进行截屏,然后用多模态大模型(GLM-4.5系列)“理解”屏幕上有什么——哪个是按钮,哪段是文字,哪个图标可以点。

理解之后,它自动生成操作指令:点击这里,在那里输入文字,向上滑动浏览...

就这样,它已经能在微信、淘宝、抖音、美团等超过50个我们最常用的App里,流畅地跑通数十步的复杂任务流程。

比如,从打开外卖软件、筛选餐厅、对比优惠、完成支付,到最后关闭App。整个过程,无需任何人工干预。

为什么这次开源是“重磅炸弹”?

过去,手机自动化要么靠固定的脚本(界面一变就失效),要么依赖App官方开放的API(限制极多)。而AutoGLM走的是第三条路:像人一样“视觉感知”

界面改版了?没关系,它能看懂新的按钮在哪。操作流程变了?它能根据新界面重新推理步骤。

这种“鲁棒性”,让它从实验室玩具,变成了真正可用的生产力工具。

更关键的是,智谱这次开源是“掏家底式”的:

  1. 训练好的核心模型:直接拥有手机操作能力的大脑。
  2. 完整的工具链框架:把点击、滑动、输入等操作封装好,拿来就用。
  3. 现成的Demo示例:覆盖50多个App的实操流程,复制粘贴就能跑起来。
  4. 安卓适配层和文档:从手机到模拟器,快速集成指南一应俱全。

门槛被踏平了,然后呢?

想象一下:

智谱的野心很明确:让每一台手机,都可以通过AutoGLM,变成真正的“AI手机”。不再需要等待手机厂商的施舍,开发者和极客们自己就能动手实现。

数据与隐私,如何保障?

这是所有AI助理的命门。AutoGLM的方案是:支持完全的本地或私有云部署。

它的“大脑”(模型)可以从云端学习技能,但“执行任务”的过程,可以完全运行在你自己的手机或公司服务器上。你的操作数据、屏幕截图,不必离开你的设备。

这堵墙,是它能否被广泛接纳的基础。现在看来,墙修得还算牢固。

大模型竞争的下半场,战火正在从单纯的“对话”,猛烈地烧向“操作”。

当AI不仅能回答“怎么订机票”,还能亲手帮你把机票订好时,我们与数字世界的交互方式,将被彻底重塑。

一个由无数个“数字分身”替你处理琐事的时代,随着这次开源,加速向我们驶来。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读