Google Gemma 4 来了:我把它跑在手机上,延迟低得出乎意料

哈喽,我是飞飞。
上周 Google 发布了 Gemma 4,我第一时间在手机上跑了一下。说实话,我没想到延迟会这么低。
手机上跑大模型,以前的体验基本是:等、等、等,然后出来一段勉强能看的文字。Gemma 4 的 E2B 版本不一样——问一个问题,回答几乎是即时的。这让我重新想了一下”端侧 AI”这件事到底意味着什么。
Gemma 4 是什么
Gemma 4 是 Google DeepMind 在 2026 年 4 月 2 日正式发布的开源模型家族,基于 Gemini 3 的研究成果构建,采用 Apache 2.0 协议开源——这个协议比之前的 Gemma 协议宽松很多,商用基本没有障碍。
这次发布了四个尺寸:E2B、E4B、26B A4B、31B。
前两个(E2B 和 E4B)是专门为手机和边缘设备设计的。E 代表 Edge,2B 和 4B 是参数量。这两个模型有一个大模型没有的能力:原生支持音频输入,可以直接处理语音,不需要先转文字。
后两个(26B 和 31B)是混合专家架构(MoE),跑在消费级 GPU 或工作站上,面向更复杂的推理任务。
跑在手机上是什么感觉
我用的是 Google AI Edge Gallery 这个 App,iPhone 用户在 App Store 中搜索下载,然后直接在 App 中下载 Gemma 4 E4B 模型,完全本地运行,不联网,我的手机是 iPhone 15 Pro。
下载大概花了几分钟,模型文件约 3GB 多点。装好之后打开,界面很简单,就是一个对话框。
我问了几个问题:
中文理解:问了一个关于代码逻辑的问题,回答准确,中文表达也自然。Gemma 4 支持 140 多种语言,中文表现比上一代明显好。
代码生成:让它写一个 Python 的快速排序,代码正确,注释清晰。
图片理解:拍了一张截图发给它,问”这段代码有什么问题”,它能看懂图片内容并给出分析。这是多模态能力,E4B 支持图文输入。
延迟方面,E4B 在我的手机上(搭载高通骁龙芯片)首 token 出现大概在 1-2 秒,之后的生成速度流畅。这个体验比我预期的好很多。
Google 说这是和高通、联发科深度合作优化的结果,针对手机 NPU 做了专门的量化和推理优化。
上下文窗口大得有点夸张
Gemma 4 的上下文窗口是这次升级里让我印象最深的一个数字。
E2B 和 E4B 这两个手机版本,上下文窗口是 128K token。26B 和 31B 的大版本是 256K token。
128K 是什么概念?大概可以放进去一本中等长度的小说,或者一个中型代码库的核心文件。在手机上跑一个 128K 上下文的模型,这在一年前是不可想象的事情。
这个上下文窗口的意义不只是”能记住更多对话”。更重要的是,它让端侧模型第一次有能力处理真正复杂的任务——比如分析一份完整的合同、理解一个完整的代码文件、在长对话中保持连贯的推理。
端侧 AI 的真正价值在哪里
跑完之后我想了一个问题:手机上跑模型,到底有什么是云端做不到的?
最直接的一点是隐私。你的数据不离开设备,不经过任何服务器。我之前用云端 API 处理一些代码的时候,总有一种隐隐的不安——这段代码会不会被用来训练模型?端侧模型直接消除了这个顾虑。
然后是离线。飞机上、地铁里、出差到信号差的地方,模型照样跑。这听起来是小事,但真正需要的时候你会发现它很重要。
还有一个容易被忽视的点:延迟。云端模型再快,也有网络往返的时间。端侧模型的延迟是纯计算延迟,在某些场景下反而比云端更快——尤其是网络不稳定的时候。
成本就不用说了,一次下载,推理成本为零。
Google 在发布 Gemma 4 的同时,还推出了 Agent Skills——一个在手机上跑多步骤自主 Agent 工作流的功能。这意味着端侧 AI 不只是”聊天机器人”,而是可以在手机上自主完成任务的 Agent。
和 Llama 比怎么样
很多人会问:Gemma 4 和 Meta 的 Llama 比怎么样?
参数效率上,E4B 比 Llama 3.1 8B 参数少一半,但推理能力和多模态能力都不弱。原因是 Gemma 4 不是从头训练的小模型,而是从 Gemini 3 蒸馏出来的——站在巨人肩膀上,起点就不一样。
生态上,Llama 的社区更成熟,各种微调工具、量化工具都有现成的。Gemma 4 的优势在 Android 这一侧——通过 AICore 接入,比自己折腾 Llama 省事很多。如果你在做 Android 应用,这个差距很明显。
协议上两者都是 Apache 2.0,商用都没问题,这点打平。
我的判断
跑完这一圈,我的感受是:E4B 在手机上的表现,已经超出了我对”4B 参数模型”的预期。
不是说它能替代 GPT-4o 或者 Claude Opus——复杂推理、长文写作这些还是差一截。但它在手机上能做的事情,比我想象的多。代码理解、图片分析、中文对话,这些日常场景基本够用。
如果你在做 Android 开发,或者对本地运行 AI 感兴趣,Google AI Edge Gallery 可以直接下载体验,不需要写任何代码。下载完就能用,就这么简单。
你有没有在手机或者本地跑过开源模型?体验怎么样?评论区聊聊,我很好奇大家对端侧 AI 的看法——是真的有用,还是噱头大于实用?