智谱把"会操作手机的AI"开源了：AutoGLM 如何用眼睛+大脑+手接管你的手机

发表于 2026-03-19 更新于 2026-05-29 分类于阅读阅读次数：本文字数： 4.3k 阅读时长 ≈ 4 分钟

cover

你对着手机说”帮我在美团上点一份黄焖鸡米饭，不要辣，送到公司”。

然后你放下手机，继续开会。

5 分钟后，外卖下单了。AI 自己打开美团，搜索黄焖鸡，选了评分最高的店，勾掉辣椒选项，确认地址，完成支付。整个过程，你的手指没碰过屏幕一次。

这不是概念视频，是 AutoGLM 已经能做到的事情。

2025 年 12 月 9 日，智谱深夜开源了 AutoGLM——一个能”看懂”手机屏幕、自主规划任务、模拟真人操作的 AI Agent 框架。模型（AutoGLM-Phone-9B）用 MIT 协议开源，代码用 Apache-2.0 协议托管在 GitHub。

这意味着任何硬件厂商、手机厂商、开发者，都可以基于 AutoGLM 造出自己的”AI 手机”。

已经支持微信、淘宝、抖音、美团等超过 50 个高频中文应用。有人用它自动刷抖音，有人用它帮忙比价购物，甚至有人让它玩原神。

今天我们来拆解：AutoGLM 到底怎么做到的？”眼睛+大脑+手”的架构设计有多精妙？它和小米 miclaw、豆包手机有什么本质区别？

传统方案的死胡同

在聊 AutoGLM 之前，先理解一个问题：为什么”AI 操作手机”这么难？

方案一：无障碍服务（AccessibilityService）模拟点击。 豆包手机助手用的就是这条路。通过 Android 的无障碍权限，模拟用户的点击和滑动。问题是：第三方 App 可以检测到这种模拟行为，判定为”外挂”，导致封号。豆包因此被多个超级 App 围堵。

方案二：系统级 API 调用。 小米 miclaw 用的是这条路。通过 Intent 驱动和 AIDL 协议直接调用系统接口。优点是稳定、不会被封号；缺点是必须和手机系统深度绑定，只能在小米设备上用，而且能操作的范围取决于系统开放了多少 API。

方案三：读取 UI 树（View Hierarchy）。 通过解析 Android 的视图层级，理解界面上有哪些元素。问题是：大多数 App 开发者根本不在意无障碍标签。一个按钮可能叫 “Button1”，一个输入框可能没有任何描述。AI 读到的是一堆无意义的标签，根本不知道哪个是”下单”按钮。

三条路，三个死胡同。

AutoGLM 走了第四条路：直接看屏幕。

眼睛：像人一样”看”屏幕

AutoGLM 的核心突破在于：它不读代码，不读标签，不读 UI 树。它直接看屏幕截图。

就像一个真人用户拿到一部陌生手机，不需要知道 App 的源代码，不需要了解哪个按钮绑定了什么事件。他只需要看屏幕——“哦，这里有个搜索框，这里有个购物车图标，这个红色按钮是确认下单”。

AutoGLM 的”眼睛”是一个 9B 参数的多模态视觉语言模型（AutoGLM-Phone-9B）。它的工作方式：

截取当前屏幕：通过 ADB（Android Debug Bridge）获取实时截图
视觉理解：模型分析截图中的所有 UI 元素——按钮、文字、图标、输入框、列表
空间定位：精确识别每个元素的位置坐标，知道”下单按钮在屏幕右下角 (x:890, y:1650)”
语义理解：不只是识别元素，还理解它们的含义和上下文关系

这种基于视觉的方案有一个巨大优势：它不依赖任何 App 的内部实现。

无论是微信、淘宝还是任何新出的 App，只要界面画出来了，AutoGLM 就能看懂。不需要 App 开发者做任何适配，不需要无障碍标签，不需要系统权限。一张截图，就够了。

在 AutoGLM 2.0 中，”眼睛”由 GLM-4.5V 担当——一个拥有 1060 亿总参数（120 亿激活）的视觉语言模型，在 42 个多模态基准测试中达到了同级别开源模型的最佳性能。

大脑：规划与落地的双脑协同

看懂屏幕只是第一步。看懂之后，怎么行动？

这就是 AutoGLM 最精巧的设计：双脑协同架构。

规划大脑：GLM-4.5

负责”想”。接收用户的自然语言指令，理解意图，拆解成一系列步骤。

你说”帮我订明天下午 3 点从北京到上海的高铁票”，规划大脑的思考过程大概是：

打开 12306 或携程
搜索北京到上海的高铁
筛选明天下午 3 点左右的车次
选择合适的座位
确认乘客信息
完成支付

这个过程需要逻辑推理、常识判断、多步规划。GLM-4.5 作为智谱的旗舰语言模型，原生融合了推理、编码和 Agent 能力，支持”混合推理”模式——简单任务快速响应，复杂任务深度思考。

落地大脑：GLM-4.5V

负责”做”。接收规划大脑的抽象指令（”打开 12306”），在真实屏幕上找到并执行具体操作。

它需要回答的问题是：12306 的图标在屏幕的哪个位置？搜索框在哪里？”查询”按钮长什么样？车次列表怎么滚动？

为什么要分两个大脑？

智谱的研究发现：将”规划”和”落地”解耦，是提升 Agent 能力的关键。

规划需要的是逻辑灵活性和推理深度——知道该做什么。落地需要的是视觉精度和操作精确性——知道怎么在屏幕上执行。

让一个模型同时处理这两件事，就像让一个人同时下棋和打乒乓球。分成两个专家，各自做最擅长的事，效果远好于一个全能但平庸的通才。

手：ADB/HDC 执行操作

“眼睛”看懂了屏幕，”大脑”规划好了步骤，最后需要”手”来执行。

AutoGLM 的”手”是 ADB（Android Debug Bridge）或 HDC（HarmonyOS Device Connector）。模型输出的操作指令被翻译成具体的设备命令：

操作类型	示例
点击	`do(action="Tap", position=[450, 800])`
滑动	`do(action="Swipe", startPos=[500, 1500], endPos=[500, 500])`
输入文字	`do(action="Type", text="黄焖鸡米饭")`
启动应用	`do(action="Launch", app="美团")`
返回	`do(action="Back")`
等待	`do(action="Wait", duration=2)`

整个流程形成一个循环：

1	截屏 → 视觉理解 → 规划下一步 → 执行操作 → 截屏 → ...

每一步都会重新截屏、重新理解、重新决策。这意味着即使界面发生了意外变化（弹出广告、加载延迟、布局改变），AutoGLM 都能实时应对，而不是像传统自动化脚本那样直接崩溃。

开源了什么：拿来就能用的全套

AutoGLM 的开源不是扔一个模型权重就完事了。它开源了一整套可落地的框架：

模型层：

AutoGLM-Phone-9B：基础版，9B 参数
AutoGLM-Phone-9B-Multilingual：多语言版，支持中英文
托管在 HuggingFace 和 ModelScope，MIT 协议

框架层：

完整的 Phone Agent 代码，Apache-2.0 协议
支持 Android（ADB）、HarmonyOS（HDC）、iOS（WebDriverAgent）
支持本地部署（vLLM/SGLang）和云端 API
MCP Server 接入，可通过 Claude Desktop 等工具调用
远程 ADB 调试，WiFi 连接设备

工具链：

自动化测试脚本
部署验证工具
详细文档和教程

一行命令启动：

python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书搜索美食"

如果不想自己部署模型，直接用智谱的 API：

python main.py \
  --base-url https://api.z.ai/api/paas/v4 \
  --model "autoglm-phone-multilingual" \
  --apikey "你的API-Key" \
  "帮我比较京东上洗衣液的价格"

和小米 miclaw、豆包手机有什么区别

三个方案，三种路线：

维度	AutoGLM	小米 miclaw	豆包手机
核心技术	视觉大模型 + ADB	系统 API + Intent	无障碍服务模拟点击
开源	完全开源（MIT + Apache-2.0）	闭源	闭源
设备限制	任何 Android/HarmonyOS/iOS	仅小米 17 系列	需要特定权限
App 适配	无需适配，看截图即可	需要系统封装工具	无需适配但易被封
被封号风险	低（ADB 操作）	极低（系统级）	高（模拟点击）
生态	开放，任何厂商可用	封闭，仅小米生态	封闭，字节生态
IoT 联动	不支持（纯手机端）	支持米家 10 亿+ 设备	不支持
部署门槛	需要技术基础	零门槛	零门槛

一句话总结：

AutoGLM：技术最硬核，生态最开放，但需要动手能力
miclaw：体验最丝滑，生态最完整，但被锁在小米设备里
豆包：最通用，但被封号风险最高

AutoGLM 最大的价值在于开源。它不是一个产品，是一个基础设施。任何手机厂商——OPPO、vivo、华为、三星——都可以基于 AutoGLM 做自己的手机 Agent。不需要从零训练视觉模型，不需要从零搭建操作框架。拿来就用。

安全设计：敏感操作必须确认

一个能操作手机的 AI，安全怎么保障？

AutoGLM 内置了几层安全机制：

第一，敏感操作确认。 涉及支付、删除、发送消息等敏感操作，Agent 会暂停并请求用户确认。不会默默帮你付了 3000 块的机票。

第二，登录场景人工接管。 遇到需要输入密码、验证码的场景，Agent 会提示用户手动完成，然后继续后续操作。不会尝试猜你的密码。

第三，云手机隔离。 AutoGLM 支持在云手机上运行——AI 操作的是云端的虚拟设备，不是你手里的真机。数据和操作完全隔离。

第四，本地部署。 模型可以完全本地部署，不需要把任何数据发到云端。智谱官方也声明，AutoGLM 的交互数据不会用于模型训练。

写在最后

AutoGLM 的开源，可能是 2026 年手机 AI 领域最重要的事件之一。

不是因为它的技术最先进（虽然确实很强），而是因为它改变了游戏规则：以前只有大厂才能做手机 Agent，现在任何人都可以。

一个独立开发者，一台 Android 手机，一块 GPU（或者直接用 API），就能跑起来一个能看屏幕、能思考、能操作的手机 Agent。

社区里已经有人做了 Operit AI——一个基于 AutoGLM 的纯手机端 Agent，不需要连电脑，支持语音操控，甚至能小窗后台运行。还有人做了 MCP Server，让 Claude Desktop 直接控制手机。

一个 AutoGLM 开源了，千千万万个手机 Agent 要站起来了。

正如那句话所说：这件事只在一家公司做，是不够的。

你想让 AI 帮你操作手机做什么？是自动点外卖、自动回消息，还是自动刷短视频？如果你是开发者，会基于 AutoGLM 做什么应用？评论区聊聊你的想法。