Google Gemma 4 来了：我把它跑在手机上，延迟低得出乎意料

发表于 2026-04-08 更新于 2026-05-29 分类于 AI 阅读次数：本文字数： 2k 阅读时长 ≈ 2 分钟

cover

哈喽，我是飞飞。

上周 Google 发布了 Gemma 4，我第一时间在手机上跑了一下。说实话，我没想到延迟会这么低。

手机上跑大模型，以前的体验基本是：等、等、等，然后出来一段勉强能看的文字。Gemma 4 的 E2B 版本不一样——问一个问题，回答几乎是即时的。这让我重新想了一下”端侧 AI”这件事到底意味着什么。

Gemma 4 是什么

Gemma 4 是 Google DeepMind 在 2026 年 4 月 2 日正式发布的开源模型家族，基于 Gemini 3 的研究成果构建，采用 Apache 2.0 协议开源——这个协议比之前的 Gemma 协议宽松很多，商用基本没有障碍。

这次发布了四个尺寸：E2B、E4B、26B A4B、31B。

前两个（E2B 和 E4B）是专门为手机和边缘设备设计的。E 代表 Edge，2B 和 4B 是参数量。这两个模型有一个大模型没有的能力：原生支持音频输入，可以直接处理语音，不需要先转文字。

后两个（26B 和 31B）是混合专家架构（MoE），跑在消费级 GPU 或工作站上，面向更复杂的推理任务。

我用的是 Google AI Edge Gallery 这个 App，iPhone 用户在 App Store 中搜索下载，然后直接在 App 中下载 Gemma 4 E4B 模型，完全本地运行，不联网，我的手机是 iPhone 15 Pro。

下载大概花了几分钟，模型文件约 3GB 多点。装好之后打开，界面很简单，就是一个对话框。

我问了几个问题：

中文理解：问了一个关于代码逻辑的问题，回答准确，中文表达也自然。Gemma 4 支持 140 多种语言，中文表现比上一代明显好。

代码生成：让它写一个 Python 的快速排序，代码正确，注释清晰。

图片理解：拍了一张截图发给它，问”这段代码有什么问题”，它能看懂图片内容并给出分析。这是多模态能力，E4B 支持图文输入。

延迟方面，E4B 在我的手机上（搭载高通骁龙芯片）首 token 出现大概在 1-2 秒，之后的生成速度流畅。这个体验比我预期的好很多。

Google 说这是和高通、联发科深度合作优化的结果，针对手机 NPU 做了专门的量化和推理优化。

Gemma 4 的上下文窗口是这次升级里让我印象最深的一个数字。

E2B 和 E4B 这两个手机版本，上下文窗口是 128K token。26B 和 31B 的大版本是 256K token。

128K 是什么概念？大概可以放进去一本中等长度的小说，或者一个中型代码库的核心文件。在手机上跑一个 128K 上下文的模型，这在一年前是不可想象的事情。

这个上下文窗口的意义不只是”能记住更多对话”。更重要的是，它让端侧模型第一次有能力处理真正复杂的任务——比如分析一份完整的合同、理解一个完整的代码文件、在长对话中保持连贯的推理。

跑完之后我想了一个问题：手机上跑模型，到底有什么是云端做不到的？

最直接的一点是隐私。你的数据不离开设备，不经过任何服务器。我之前用云端 API 处理一些代码的时候，总有一种隐隐的不安——这段代码会不会被用来训练模型？端侧模型直接消除了这个顾虑。

然后是离线。飞机上、地铁里、出差到信号差的地方，模型照样跑。这听起来是小事，但真正需要的时候你会发现它很重要。

还有一个容易被忽视的点：延迟。云端模型再快，也有网络往返的时间。端侧模型的延迟是纯计算延迟，在某些场景下反而比云端更快——尤其是网络不稳定的时候。

成本就不用说了，一次下载，推理成本为零。

Google 在发布 Gemma 4 的同时，还推出了 Agent Skills——一个在手机上跑多步骤自主 Agent 工作流的功能。这意味着端侧 AI 不只是”聊天机器人”，而是可以在手机上自主完成任务的 Agent。

很多人会问：Gemma 4 和 Meta 的 Llama 比怎么样？

参数效率上，E4B 比 Llama 3.1 8B 参数少一半，但推理能力和多模态能力都不弱。原因是 Gemma 4 不是从头训练的小模型，而是从 Gemini 3 蒸馏出来的——站在巨人肩膀上，起点就不一样。

生态上，Llama 的社区更成熟，各种微调工具、量化工具都有现成的。Gemma 4 的优势在 Android 这一侧——通过 AICore 接入，比自己折腾 Llama 省事很多。如果你在做 Android 应用，这个差距很明显。

协议上两者都是 Apache 2.0，商用都没问题，这点打平。

跑完这一圈，我的感受是：E4B 在手机上的表现，已经超出了我对”4B 参数模型”的预期。

不是说它能替代 GPT-4o 或者 Claude Opus——复杂推理、长文写作这些还是差一截。但它在手机上能做的事情，比我想象的多。代码理解、图片分析、中文对话，这些日常场景基本够用。

如果你在做 Android 开发，或者对本地运行 AI 感兴趣，Google AI Edge Gallery 可以直接下载体验，不需要写任何代码。下载完就能用，就这么简单。

你有没有在手机或者本地跑过开源模型？体验怎么样？评论区聊聊，我很好奇大家对端侧 AI 的看法——是真的有用，还是噱头大于实用？