你的手机会自己点外卖了!Google Gemini Screen Automation 到底有多猛?

想象一个场景。
你正在开会,突然想起今晚得加班,来不及做饭。你掏出手机,对着 Gemini 说了一句:”帮我在 Uber Eats 上点一份辣鸡肉三明治。”
然后你把手机放下,继续开会。
几秒钟后,你的手机自己打开了 Uber Eats,搜索附近的餐厅,找到了 Popeye’s,点进去,选好了辣鸡肉三明治,加到购物车,然后通知你:”已经准备好了,请确认下单。”
你全程没有碰过屏幕。
这不是科幻电影。这是 Google 在 2026 年 3 月刚刚上线的 Gemini Screen Automation——一个让 AI 直接操控你手机上的 App 来完成任务的功能。
这到底是个什么东西?
简单说:Gemini 现在可以替你操作手机了。
不是回答问题,不是推荐餐厅,不是给你一个链接让你自己去点——而是真的打开 App、浏览菜单、选择商品、添加到购物车。像一个隐形的助手坐在你旁边,替你完成那些需要十几次点击才能搞定的重复操作。
Google 内部把这个功能代号叫 **”Bonobo”**。2026 年 2 月在三星 Galaxy Unpacked 发布会上首次亮相,3 月 12 日正式在 Galaxy S26 系列上线,3 月 17 日扩展到 Pixel 10 系列。
Android 生态系统总裁 Sameer Samat 说了一句意味深长的话:
“Android 正在从一个操作系统,进化为一个智能系统。”
从 Operating System 到 Intelligent System。 这个定位的转变,比功能本身更值得关注。
它能做什么?
目前支持 6 个 App:
- 打车:Lyft、Uber
- 外卖:Uber Eats、DoorDash、Grubhub
- 咖啡:Starbucks
你可以给 Gemini 下这些命令:
1 | "帮我打一辆车去机场" |
Gemini 的理解能力还挺强。Android Central 的测试中,有人对它说要一杯 **”Medicine Ball”**——这是星巴克的一个民间叫法,不是正式菜单上的名字。Gemini 直接把它识别成了 Citrus Honey Mint Tea(柑橘蜂蜜薄荷茶),准确下单。
它不是在做文本匹配,而是在理解语义。
技术上怎么实现的?
这里有几个值得技术人关注的细节。
虚拟窗口 + 云端处理
Gemini 不是直接在你的手机前台操作 App。它会打开一个安全的虚拟窗口,在这个沙箱环境中完成所有操作。你可以随时查看进度,也可以随时叫停。
在 Pixel 10 上,这个过程是云端处理的。你的手机把任务发送到 Google 的服务器,服务器端的 Gemini 模型完成推理和操作决策,再把结果同步回来。
Android 16 QPR3 的底层支撑
Screen Automation 不是一个简单的 App 更新就能搞定的功能。它需要 Android 16 QPR3 的底层支持——操作系统要提供让 AI “看到”屏幕内容和”触摸”屏幕元素的能力。
这也是为什么目前只有 Galaxy S26(One UI 8.5)和 Pixel 10 支持。不是 Google 不想给更多设备,而是操作系统层面的适配需要时间。
安全设计:不替你付钱
这是一个关键的设计决策:Gemini 不会替你完成最后的支付步骤。
它会帮你选好商品、加到购物车、填好地址——但到了结账页面,它会停下来通知你:”请确认并完成支付。”
这个设计背后的逻辑很清楚:自动化可以帮你省时间,但花钱这件事必须你自己决定。避免了 AI 误操作导致的财务损失。
免费用户能用多少?
这是很多人关心的问题。答案是:能用,但有严格限制。
| 订阅等级 | 月费 | 每天可用次数 |
|---|---|---|
| 免费用户 | $0 | 5 次 |
| AI Plus | $7.99 | 12 次 |
| AI Pro | $19.99 | 20 次 |
| AI Ultra | $249.99 | 120 次 |
5 次是什么概念?早上点一杯咖啡(1 次)、叫一辆车去上班(2 次)、中午点外卖(3 次)——下午你就没额度了。
对于普通用户来说,免费额度只够”尝个鲜”。如果你想把它变成日常工作流的一部分,至少得订 AI Plus。
还有一个容易混淆的概念:Screen Automation 和 Gemini Agent 是两个不同的东西。Screen Automation 是在你手机上操控 App;Gemini Agent 是在云端打开一个浏览器实例,帮你在网页上做事。后者目前只对 AI Ultra 用户开放,每天 200 次。
目前的局限和坑
说实话,这个功能目前还处于 “早期预览 Beta” 阶段。Google 自己都这么说。
局限一:只支持 6 个 App
目前只有打车和外卖类 App。没有微信、没有邮件、没有日历、没有银行 App。Google 说 Instacart(生鲜购物)即将加入,但更多 App 的支持时间未知。
对于中国用户来说,这些 App 基本用不到。但重要的不是这 6 个 App,而是这个能力本身。 一旦 Google 开放 API 或扩展适配,未来任何 App 都可能被 Gemini 操控。
局限二:只支持英语,只有美韩两国
目前只在美国和韩国上线,只支持英语。中文支持和更多地区的扩展还没有时间表。
局限三:有 Bug
WinBuzzer 报道了一个测试中出现的 Bug:Screen Automation 在某次操作后锁住了整个手机屏幕,需要强制重启才能退出。
Google 自己也在免责声明中写得很清楚:
“Gemini 可能会犯错。你需要对它代你执行的操作负责,请密切监督。”
局限四:隐私问题
这一条需要特别注意:当 Screen Automation 工作时,Gemini 会截取屏幕截图。如果你的”保持活动记录”选项是开启状态,这些截图会被 Google 的人工审查员查看,用于改进服务。
也就是说,你让 Gemini 帮你点外卖的过程中,它截取的屏幕画面——包括你的地址、订单详情、甚至打开过的其他 App 内容——都可能被人类看到。
Google 也建议用户:”不要在 Gemini 对话中输入登录信息或支付信息。避免在涉及敏感信息的任务中使用 Screen Automation。”
为什么这件事很重要?
你可能觉得,不就是帮你点个外卖吗?至于这么激动?
至于。
因为这是 Google 在 Android 上迈出的关键一步:从”用户操作手机”变成”AI 操作手机”。
想想 Android 的用户规模。全球超过 30 亿 台活跃 Android 设备。当 Screen Automation 从 6 个 App 扩展到 60 个、600 个的时候,它会彻底改变人和手机的交互方式。
以前你打开手机要:解锁 → 找到 App → 打开 → 浏览 → 选择 → 确认 → 支付。七个步骤。
以后你只需要一步:说出你要什么。
这对几个群体有重大影响:
对 App 开发者
如果用户不再”打开”你的 App,而是让 AI 替他们操作,那 App 的 UI 设计、广告展示、交叉销售策略全都要重新思考。你的用户界面可能再也不会被人类看到。
对产品经理
用户旅程变了。以前你精心设计的引导流程、推荐算法、会员弹窗——在 AI 面前都是障碍,会被直接跳过。产品设计要从”给人看”变成”给 AI 看”。
对竞争格局
Apple 的 Siri 还在”理解命令”的阶段,Google 的 Gemini 已经在”执行任务”了。这个差距不是一两年能追上的。
Google 不是在做一个功能,是在做一个平台级的能力升级。 谁先让 AI 真正”替用户做事”,谁就掌握了下一代移动交互的入口。
跟 Apple Intelligence 比怎么样?
苹果在 2025 年推出了 Apple Intelligence,主要集中在文本生成、图片编辑、通知摘要等领域。Siri 也有一些 App 集成能力,但距离”自主操控 App”还有明显差距。
Google 的策略更激进:直接让 AI 成为手机的”操作者”。 不是辅助你,而是替你做。
当然,苹果的优势在于隐私——Apple Intelligence 大量使用本地处理。而 Google 的 Screen Automation 依赖云端,隐私风险更大。
速度和隐私之间的权衡,将是两家公司未来几年竞争的核心主题。
写在最后
2026 年 3 月,你的手机学会了自己点外卖。
听起来很小的一步,但背后的意义远比你想的要大。Google 正在用 Gemini 把 Android 从一个”你操作它”的工具,变成一个”它替你干活”的助手。
目前它还很早期——6 个 App、两个国家、一堆限制、偶尔还会 Bug。但技术的发展从来不是线性的。想想 2022 年的 ChatGPT,谁能想到三年后 AI 已经可以帮你操作手机了?
对开发者来说,这是一个值得密切关注的趋势。当 AI 成为 App 的使用者,你的 App 需要为 AI 而设计,而不只是为人类。 这会是一个全新的产品设计范式。
对普通用户来说,享受技术红利的同时别忘了两件事:监督 AI 的操作,管好你的隐私设置。
Google 产品副总裁 Mindy Brooks 说得好:
“我们正在把 Android 从一个操作系统,进化为一个学习并为你工作的智能系统。”
智能系统。 这三个字,可能就是未来十年手机行业的关键词。
你觉得 AI 操控手机是方便还是细思极恐?你会放心让 Gemini 替你点外卖吗?如果这个功能来到中国市场,你最想让它自动化哪个 App?欢迎评论区聊聊。