智谱把模型干到了 400 tokens/s，国产开始卷速度了

发表于 2026-05-25 更新于 2026-07-13 分类于观点阅读次数：本文字数： 3.7k 阅读时长 ≈ 3 分钟

智谱于5月22日发布GLM-5.1高速版，输出速度400 tokens/s，约为普通版44 tokens/s的9倍，文章拆解TileRT把推理从批处理改造成编译期预排的连续流水线，叠加MoE稀疏激活、MTP多token预测与稀疏注意力，并实测代码生成与PDF总结场景。

cover

哈喽，我是飞飞。

5/22 早上我刷到 400 这个数字，第一反应是看错了

5 月 22 号早上，我刷到智谱发了个新东西叫 GLM-5.1 高速版，输出速度 400 tokens/s。

第一眼没什么反应。国产模型这两年发布会太多了，看到这种新闻已经麻木。但隔了 30 秒我意识到 400 这个数字不对劲。

普通 GLM-5.1 大概 44 tokens/s，Claude Opus 4.6 标准模式 44，DeepSeek 官方 API 30 到 35。Gemini 3 Flash 算业界比较快的一档 121。最快的 Mercury C 是 633，但用的是 diffusion 架构，能力不在第一档。

智谱直接干到 400，而且是旗舰能力的旗舰，没有为了快阉割掉能力。

说白了，全球大模型 API 的速度天花板被顶高了一截。

上手摸了一遍企业 API，眼睛追不上吐字的速度

我立刻申请了企业 API 权限上手测了一下。

上来先扔一段 React 组件重构，把一个 800 行的列表组件改写成 useMemo + virtualized 版本。我盯着输出窗口，代码像字幕一样从上往下飞过去。下意识想用 Cmd+F 去定位变量名，手还没碰到键盘，整段代码已经吐完了。

换下一个，丢一份 35 页 PDF 行业报告进去让它总结核心论点。同样的任务我用 Claude Code 跑过几次，每次要等 40 到 60 秒。这次数到 6 秒，结果出来了。

再试 Agent 链。让它先抓一个 GitHub repo 的 README，再读源码目录，再生成一段中文技术解读。三个动作连着跑下来不到 15 秒。

测试结束时我有种很奇怪的感觉。模型还在那儿一边思考一边吐字，但我的眼睛已经追不上它的速度了。

副作用也有一个：太快导致来不及打断。PDF 总结那一轮里，它有一段方向跑偏了，但等我意识到的时候它已经吐完结论。Claude Code 那种「慢慢吐字给你时间叫停」的节奏，在这儿不存在。

把 400 翻译一下：是人类阅读极限的 80 倍

人类正常阅读速度大概是 3 到 5 个 token 每秒。对，就这么慢。觉得自己看文章很快，其实绝大多数时候是在跳读。认真看每一个字，3 到 5 个 token 就是上限。

400 tokens/s 是这个的 80 倍。AI 在 1 秒内吐出来的东西，你需要花 80 秒才能读完。

落到具体场景。Cursor 或 Claude Code 让你生成 2000 token 代码，标准模型要 50 秒，够你去厨房接杯水回来。换成 400 tokens/s 是 5 秒，刚把手从键盘上挪开，代码已经全部出来。

50 秒那种叫「等 AI」：下命令然后等，等的时候打开微信刷两条朋友圈，结果出来再回头检查。

5 秒那种叫「跟着 AI」：你的眼睛、思维和模型几乎同步，看着代码流出来，发现哪里写偏了立刻按 Esc 改方向。

这种差距大到「快了一点」根本描述不了，整个交互范式被换了一套。

TileRT 把推理工厂从批处理改造成连续流水线

理论上推理速度上限由硬件决定。一台 8 卡 H200 服务器按理论带宽算 decode 上限差不多 1000 tokens/s。但主流推理框架跑出来常常只有几十 tokens/s，中间差了一个数量级。

TileRT 团队博客里有个比喻特别好。想象一个工厂，里面分好几个工位，一个切割，一个打磨，一个装配。

主流推理框架是这么干活的：工头喊「开工」，第一个工位做完整批，半成品送进仓库。工头再喊一声，第二个工位从仓库把半成品搬出来接着做。

如果这批量很大，每个工位忙几十甚至几百毫秒，进出仓库的几微秒可以忽略。但实时交互场景里每次只生成一个 token，工位处理时间被压缩到几微秒。工件加工 2 微秒，搬运用了 5 到 10 微秒。超过一半的时间机器都在等下一个工位「准备好」，不是在干活。

GPU 利用率看着挺高，算力理论上也够，但 token 就是吐不快。卡在工位与工位之间的那堵墙上。

TileRT 干的事儿就是把整个工厂从「批处理车间」改造成「连续流水线」。

不再等一整批做完再送仓库，而是一件一件直接传给下一个工位。工头只在最开始喊一次「开工」，之后所有调度、同步、传递都在车间内部完成，再也不停机。

更狠的是这条流水线在编译期就预先编排好了，运行时根本不需要即时调度。把流水线塞到 GPU 里让它一直跑。工位之间那堵墙被拆掉了。

GLM-5.1 模型架构本身就奔着配合推理引擎做的

光有流水线还不够，得让上面跑的东西也对流水线友好。

先说 MoE 稀疏激活。744B 总参数里每个 token 只激活 40B。工厂虽大，订单进来时只调用相关那几个工位，不用整个仓库都翻。

再说多 token 预测，简称 MTP。传统模型每生成一个 token 都要把整个模型跑一遍。GLM-5 训了一手，让模型一次预测接下来 2 到 3 个 token，再由主模型快速校验。实际平均每次稳定吐出 2.76 个，比 DeepSeek-V3.2 的 2.55 还高一点。

还有稀疏注意力。长上下文下传统注意力复杂度跟长度的平方成正比。稀疏注意力让模型自己判断哪些 token 重要，只对重要的做计算，砍掉 1.5 到 2 倍算力开销。

省下来的算力，正好被流水线拿去掩盖数据搬运和卡间通信的时间。模型和引擎互相给对方留头部空间。400 这个数字是这三层加上 TileRT 的执行模型重构搭在一起才出来的。

国产大模型，开始卷别人没走过的方向

让我头皮发麻的不是 400 这个数字本身，是国产大模型开始卷速度了。

目前 API 速度梯队大致这样：极速档超过 200 tokens/s，GLM-5.1 高速版之前只有 Mercury C 一家达到 633，但是 diffusion 架构，能力不在第一线。快速档 100 到 200 tokens/s，Gemini 3 Flash 121，Claude Fast Mode 100 到 112，GPT-5.1 95 到 120，DeepSeek V4 Pro 在第三方推理服务商上能跑到 170。标准档 40 到 100 tokens/s，绝大多数前沿模型都在这里。

智谱直接干到 400，把原天花板顶到新位置，而且是旗舰能力的旗舰。更巧的是 DeepSeek 同一天宣布把之前 75% 的促销折扣永久化，API 价格变 1/4。一个卷速度，一个卷价格。

实话讲，中国的大模型厂商已经从「我们也能做到」开始往别人没去过的方向走。前两年是在追，每发一个模型第一句话都是「在某某 benchmark 上超过了某某」，潜台词是「我们也有了」。今年不一样：DeepSeek 把推理价格打下来一个数量级，是别人没敢干的。智谱这次直接重写推理执行模型把速度干到 400，也是别人没去做的方向。

国际厂商怎么做的：Anthropic Fast Mode 是同一个模型调推理配置，2.5 倍速度换 6 倍价格。Google 的 Flash-Pro 分级是直接训不同大小的模型覆盖速度和能力的光谱。Fireworks 这类第三方推理服务商是在现有框架上做单点优化。

智谱走的是第四条路：根上动手术，把整个推理执行模型从批处理改成连续流水线。最深、最难、回报也最大。

Claude Code 用了快一年，慢一直是我心里那点别扭

Claude Code 我用了快一年，依赖到不可逆的程度。但有件事一直别扭：写一个复杂 prompt 之后等 30 到 50 秒看结果，几乎每天都在发生。

这个等待时间挺尴尬。说短不短，长到我会本能切到飞书或推特刷两眼。说长不长，等回来重拾上下文比直接等还累。切走再切回来思路断了，这 prompt 等于白写。

我试过 Claude 的 Fast Mode 和几个第三方推理服务，确实快一些但能力损失明显，复杂 Agent 链跟不上。

GLM-5.1 高速版让我第一次意识到，慢这件事可以被解决。能力跟 Claude Code 完全一样还远着呢，但「快」第一次被推到「快到需要重新适应交互节奏」的程度，跟「快了一点点」完全两个东西。

就像十年前第一次从机械硬盘换到 SSD：开机时间从 90 秒压到 10 秒，看起来只是数字变化，但整个 workflow 节奏被重写了一遍。这次给我的体感几乎一样。

智谱 SLA 数据和 DeepSeek 是否反击，这两件事我会盯着

但也得说几句心里的别扭。

400 tokens/s 这个数字目前还没被 Artificial Analysis 这种独立第三方测过。智谱自己也承认需要更多条件下的持续验证。我看到的更多是一个声明加少量企业客户实测，普通开发者还摸不着。

9 倍速度提升，单位 token 成本是不是也跟着便宜，定价怎么算，目前没看到具体数字。Anthropic Fast Mode 那种 2.5 倍速度换 6 倍价格的玩法市场会买账。但 400 tokens/s 如果价格跟着 9 倍 10 倍往上走，那它就是一个高端定制服务，不是普惠工具。

这些都还不清楚。但速度作为新的竞争维度被打开了。

我要盯两件事。一是智谱的 SLA 数据和正式定价区间什么时候出来，能不能从企业内测扩到通用开发者。二是 DeepSeek 会不会接着卷速度反过来回应。它过去一年都是「价格 + 能力」两条腿走，速度这条腿如果也迈出来，国产推理这块就真彻底拉开。

之前搭流水线只想着能不能跑通，没想过跑通之后在烧什么时间。GLM-5.1 高速版让我意识到，「等待时间」本身就是一种被忽略的成本。

智能 × 速度，是未来三五年 AI 行业的新战场。第一记发令枪，恰好被一家中国公司打响。