GLM-5-Turbo:第一个专门为 Agent 而生的基座模型,意味着什么?

上周我让 Claude Code 帮我重构一个项目的认证模块——读文件、分析依赖、生成方案,一共大概七八步。跑到第四步的时候它突然把前面分析好的依赖关系全忘了,开始从头编。我盯着屏幕愣了三秒。
这种事不是第一次了。换过好几个模型,长链路任务跑到中间”失忆”几乎是常态。框架层的 workaround 能缓解,但根子上是底层模型没为这种场景练过。
3 月 16 日,智谱 AI 发布了 GLM-5-Turbo。它的定位很特别:全球首个专门为 OpenClaw Agent 场景深度优化的基座模型。
不是”通用模型加了个 Agent 模式”。是从训练阶段就为 Agent 而生。
这个定位本身,可能比模型性能更值得关注。
为什么通用模型跑 Agent 会”失速”?
你可能会问:GPT-5、Claude Opus 这些通用模型已经够强了,为什么还需要专门给 Agent 做一个模型?
因为聊天和干活,是两码事。
聊天是一问一答,上下文短,错了人类马上纠正。Agent 干活不一样——它得理解”先读项目结构,找所有认证相关文件,分析依赖关系,写重构方案”这种多层嵌套指令;它得连续调用十几个工具,中间任何一步出错整个链路就崩了;它得在跑了半小时之后还记得自己在干什么。
这些能力通用模型不是”不行”,是”没专门练过”。就像你团队里那个演讲最好的人,不一定是执行力最强的那个。
GLM-5-Turbo 做了什么不一样的事
智谱的思路很暴力:框架层补不了的短板,直接在基座模型层动刀。
GLM-5-Turbo(代号 Pony-Alpha-2)基于 GLM-5 的 744 亿参数 MoE 架构,训练数据和优化目标都为 Agent 场景做了专项调整。
最值得说的是工具调用稳定性。第三方测试显示错误率仅 **0.67%**——这个数字什么概念?我之前用某个模型跑一个 15 步的数据抓取任务,平均跑 3 次才能完整跑通一次。如果错误率真能压到 0.67%,理论上跑一次就成。对长链路任务来说,这个差异是生死线。
其他几个改进也值得提:200K 上下文窗口让长任务不”失忆”,复杂指令遵循不再漏掉第三个条件,多步骤执行效率也做了针对性提升。
VentureBeat 的报道给了一个很精确的定位:”Rather than a straightforward successor to GLM-5, GLM-5-Turbo appears to be a more execution-focused variant.”
不是 GLM-5 的升级版,而是 GLM-5 的”干活版”。
ZClawBench:智谱造了一把新尺子
模型好不好,要看评测。但现有的评测基准几乎都是为聊天场景设计的。
智谱干了一件很聪明的事——自己造了一个评测 Agent 能力的基准:ZClawBench。
ZClawBench 基于对 OpenClaw 大量真实用例的分析构建,覆盖五大类任务:
- 环境搭建
- 软件开发
- 信息检索
- 数据分析
- 内容创作
题库和测试轨迹已全面公开。这意味着任何人都可以拿这把尺子去量自己的模型。
官方数据显示,GLM-5-Turbo 在 ZClawBench 上取得国产模型第一的成绩,并获得了阿里、字节 Coze、美团等大厂的内测认可。
当然,”自研评测基准+自家模型拿第一”这种组合,你可以持保留态度。但至少,智谱把题库公开了——这是一个可以验证的声明,不是一个空口白话。
价格:便宜 5 倍的 Agent 引擎
性能聊完了,聊钱。这才是我觉得 GLM-5-Turbo 真正有杀伤力的地方。
| 模型 | 输入价格 (per 1M tokens) | 输出价格 (per 1M tokens) |
|---|---|---|
| Claude Opus 4.6 | $5 | $25 |
| GPT-5.2 | $3 | $15 |
| GLM-5-Turbo | $1.2 | $4 |
Agent 任务的 token 消耗量远超普通聊天。一个复杂的多工具长链路任务,可能消耗几十万甚至上百万 token。在这种场景下,模型价格直接决定了 Agent 的运营成本。
GLM-5-Turbo 的价格比 Claude Opus 便宜约 5 倍。对于需要 7x24 小时运行 Agent 的企业来说,这不是一个小数字。
不过也要注意,相比前代 GLM-4.7,GLM-5-Turbo 已经累计涨价约 83%。智谱的策略很清楚:在 Agent 场景建立护城河,然后用定价权变现。
同时发布的”龙虾套餐”订阅包(个人版和 Team 版),也在明确这个信号:Agent 不是一次性消费,是持续性订阅。
一个更大的趋势:Agent 正在重塑模型市场
跳出 GLM-5-Turbo 本身,这件事还有一层更大的意思。
过去两年大模型卷的是”谁聊天更聪明”——MMLU 刷分、数学推理、代码生成,清一色对话范式。
OpenClaw 的爆火把桌子掀了。
智谱的数据显示,OpenClaw 工作流中 skills 的使用占比从 **26% 飙升到 45%**。这意味着用户越来越多地让 Agent 调用工具干活,而不是纯粹聊天。
当使用场景变了,模型的评价标准也在变。不是”回答得好不好”,而是”执行得稳不稳”。
这就是为什么智谱愿意为 Agent 场景单独做一个模型。这也是为什么这个模型是闭源的——这是智谱 2025 年以来的第一个闭源模型。开源拉生态,闭源做利润。Agent 基座模型,是智谱选定的利润阵地。
放眼全球,其他厂商也在往同一个方向走。Anthropic 用 Claude 做 Claude Code 和 Claude Cowork。OpenAI 推出了 Codex 模型专攻代码 Agent。Google 的 Gemini 在 Project Astra 中强化了 Agent 能力。
大模型正在从”聊天引擎”变成”执行引擎”。 GLM-5-Turbo 不是开创者,但它可能是第一个把这个方向变成产品定位的。
对开发者的实际意义
如果你正在用 OpenClaw 或其他 Agent 框架做开发,说几个我觉得实用的判断:
中文 Agent 任务,先试它。 智谱在中文语料上的积累是实打实的优势,社区多个实测反馈都说 GLM 在中文场景比同价位竞品更自然。加上价格只有 Claude Opus 的五分之一,中文长链路任务选它不亏。
但别只押一个模型。 我自己的经验是混着用最靠谱——GLM-5 跑中文任务,MiniMax M2.5 编码强(SWE-Bench 80.2%),DeepSeek V3.2 响应快、价格更低。按任务类型分配模型,比死磕一个”全能选手”效果好得多。
另外 ZClawBench 值得收藏。不管你用不用 GLM-5-Turbo,这个公开的 Agent 评测基准比看 MMLU 分数实在多了——至少它测的是”能不能把活干完”,而不是”能不能考高分”。
写在最后
说实话,GLM-5-Turbo 不是最聪明的模型,但可能是当前最适合当 Agent 底座的国产模型。如果你的 Agent 主要跑中文任务、链路长、对成本敏感——先试它,别纠结。
更大的变化是:大模型的战场正在从”谁聊天更聪明”转向”谁干活更靠谱”。 以前我们看一个模型,看的是它能不能写诗、解数学题、通过考试。现在看的是它能不能稳定调用 15 个工具、跑 3 个小时不崩、中途出错了自己修复。
这才是真正重要的转变。
你的 OpenClaw 用的是什么模型?体验过 GLM-5-Turbo 吗?不同模型之间的差异大吗?欢迎在评论区分享你的真实体验。