GPT-5.4 碾压 Claude Opus 4.6?跑分说了不算,场景说了算

cover

3 月 5 日,OpenAI 发布了 GPT-5.4。

我当时正在用 Claude Code 跑一个重构任务,看到推送通知的时候没有立刻停下来——因为我知道接下来几天技术群里会充斥着”碾压一切”和”Claude 要凉了”,等噪音散去再看数据更有效率。

等了三天,我把两个模型的基准测试、定价、实际开发体验拉通对比了一遍。结论是:没有谁碾压谁。它们赢在不同的地方,输也输在不同的地方。 你该用哪个,取决于你在做什么——不是取决于哪个跑分更高。

先看事实:两个模型各自长什么样

GPT-5.4 是 OpenAI GPT-5 系列的第四次迭代,2026 年 3 月 5 日发布。主要亮点:

  • 可调推理深度:5 档(none / low / medium / high / xhigh),每次请求可以独立设置
  • Computer Use API:原生桌面操控——看屏幕、移鼠标、点按钮、打字
  • 100 万 token 上下文窗口
  • GPT-5.4 Pro 变体:面向最难任务的高性能版本
  • 定价:API 输入 $2.50/M tokens,输出 $15/M tokens

Claude Opus 4.6 是 Anthropic 的旗舰模型,2026 年 2 月 5 日发布。主要亮点:

  • SWE-Bench Verified 最高分:80.8%,编程基准测试的标杆
  • Agent Teams:多个 Opus 实例并行协作,共享任务列表
  • 100 万 token 上下文窗口(Beta)
  • 自适应思考:4 档推理力度
  • Chatbot Arena ELO 全球第一:1503 分
  • 定价:API 输入 $15/M tokens,输出 $75/M tokens

两个模型发布时间只差一个月。定位几乎完全重叠:面向专业开发者的旗舰级大模型。

正面交锋,不可避免。

跑分对比:谁赢了?

答案是:看哪个跑分。

基准测试 GPT-5.4 Claude Opus 4.6 赢家
SWE-Bench Verified(标准编程) ~80.0% 80.8% Opus 4.6
SWE-Bench Pro(更难编程) 57.7% ~45% GPT-5.4
Terminal-Bench 2.0(终端操作) 75.1% 65.4% GPT-5.4
OSWorld(桌面操控) 75.0% 72.7% GPT-5.4
GPQA Diamond(科学推理) 92.8% 91.3% GPT-5.4
MMMU Pro(视觉理解) 85.1% Opus 4.6
MRCR v2 1M(长上下文检索) 76.0% Opus 4.6
GDPval(知识工作) 83.0% GPT-5.4
Chatbot Arena ELO(用户偏好) 1503 Opus 4.6

看到了吗?不是一边倒。

GPT-5.4 在 SWE-Bench Pro、Terminal-Bench、OSWorld、GDPval 上领先。Claude Opus 4.6 在 SWE-Bench Verified、MMMU Pro、长上下文检索、用户偏好上领先。

一个关键细节:SWE-Bench 有两个版本。Verified 是标准版,Opus 以 80.8% 领先。Pro 是更难、更不容易「刷分」的变体,GPT-5.4 以 57.7% 大幅领先。你信哪个?取决于你对基准测试本身的看法。

Artificial Analysis 的综合智能指数显示,GPT-5.4 排名第一——但紧随其后的是 Gemini 3.1 Pro,Claude Opus 4.6 在多 Agent 编排维度上排名第一。

跑分告诉你的是「理论上限」,而不是「你的场景下谁更好」。

定价对比:差距比跑分大得多

如果说跑分是五五开,定价上 GPT-5.4 赢得很明显。

模型 输入价格(/M tokens) 输出价格(/M tokens)
GPT-5.4 $2.50 $15
GPT-5.4 Pro $30 $180
Claude Opus 4.6 $15 $75
Claude Sonnet 4.6 $3 $15

GPT-5.4 标准版的输入价格是 Opus 的 六分之一,输出价格是 Opus 的 五分之一

更关键的是,GPT-5.4 在复杂任务上消耗的 token 比前代少了 **47%**。价格更低 + 效率更高,叠加起来差距惊人。NxCode 的分析指出:一个用 Opus 花 $1 的任务,GPT-5.4 可能只要 $0.10-$0.15。

但如果你用的是订阅制——ChatGPT Plus $20/月 vs Claude Pro $20/月——价格完全一样。差异只在 API 调用层面。对于高频 API 用户,这个价格差是选型时绕不过去的因素。

GPT-5.4 赢在哪

1. 桌面操控:第一个超越人类的模型

GPT-5.4 在 OSWorld 基准测试中拿了 75%,超过了人类专家的 72.4%。这是第一个在桌面操作任务上超越人类表现的 AI 模型

它能看屏幕、移鼠标、点按钮、填表单、在多个应用之间切换完成工作流。如果你的工作涉及自动化测试、UI 操作、桌面流程自动化,GPT-5.4 是目前唯一的选择。

2. 推理深度可调:一个参数控制成本和质量

5 档推理深度(none / low / medium / high / xhigh)让你在每次 API 请求时灵活调整。回答 FAQ?用 none,最便宜最快。排查并发 Bug?用 xhigh,全力推理。

这个设计对生产系统特别有价值——你可以根据每条请求的复杂度动态调整,不需要为简单任务付高价。

3. 性价比:便宜就是硬道理

对于跑大量 API 调用的团队来说,GPT-5.4 的成本优势是决定性的。6 倍的价格差,在月调用量几十万次的场景下,意味着账单少一个零。

4. 全能选手:一个模型覆盖所有场景

写代码、操控电脑、分析文档、处理图片、搜索网页——GPT-5.4 用一个端点覆盖了所有能力。不需要在不同模型之间切换,生产环境的复杂度更低。

Claude Opus 4.6 赢在哪

1. 复杂多文件重构:编码的「最后一公里」

在 SWE-Bench Verified 上,Opus 4.6 以 80.8% 保持领先。但跑分之外,开发者的一致反馈是:Opus 在跨文件重构方面明显更强。

移动模块间的代码、修改类型系统、迁移框架——这种涉及多个文件之间复杂依赖关系的任务,Opus 的错误率更低。这很难在基准测试里量化,但在实际开发中体感非常明显。

DataCamp 的对比评测也确认了这一点:「Claude Opus 4.6 在多 Agent 编排维度上排名第一。」

2. Agent Teams:AI 调度 AI

这是 Opus 4.6 独有的能力——多个 Opus 实例并行工作、直接通信、共享任务列表。

想象一个场景:你让一个 Agent 写前端组件,另一个写后端 API,第三个写数据库迁移——三个同时跑,互相协调。OpenAI 目前没有对应的功能。

对于大型项目的开发团队来说,这是一个实打实的效率倍增器。

3. 长上下文理解:不只是「能装下」,还要「能找到」

Opus 在 MRCR v2 测试中拿了 76%,测的是在 100 万 token 的上下文中精准检索信息。GPT-5.4 虽然也支持百万级上下文,但在检索准确率上没有公开的对比数据。

上下文窗口大不代表用得好。就像你把一整本书放桌上,关键是能不能快速翻到你要的那一页。Opus 在这方面验证更充分。

4. 用户偏好:人觉得好用才是真的好用

Chatbot Arena 的 ELO 排名中,Claude Opus 4.6 以 1503 分全球第一。这个排名来自真实用户的盲测投票——不知道模型名字的情况下,人们更喜欢 Opus 的回复。

尤其在创意写作、多轮对话、风格适应方面,Opus 的用户满意度明显更高。

最聪明的做法:两个都用

NxCode 和 DigitalApplied 的分析不约而同地指出:2026 年最高效的开发者不是选一个模型,而是两个都用。

我自己的搭配方式:

场景 推荐模型 原因
原型开发、快速迭代 GPT-5.4 便宜、快、一个端点搞定
深度重构、代码审查 Claude Opus 4.6 多文件理解更可靠
桌面自动化、UI 测试 GPT-5.4 Computer Use 超越人类水平
大型代码库安全审计 Claude Opus 4.6 长上下文检索更准
高频 API 调用 GPT-5.4 成本低 6 倍
多 Agent 协作开发 Claude Opus 4.6 Agent Teams 独有

Kommunicate 的企业级评测建议了一个分层路由架构:高频简单请求走 GPT-5.4 省钱,复杂或关键任务升级到 Opus 4.6 保质量。

Cursor、Continue.dev 这些工具已经支持在模型之间自由切换。你的工作流可以灵活调度,不需要绑定任何一家。

我的立场

回到开头的问题:GPT-5.4 发布后,Claude Opus 4.6 要被替代吗?

不会。 但这不是因为 Opus 更好——而是因为它们不是同一把刀。

GPT-5.4 是我现在的主力模型。便宜、全能、性价比极高。如果你只能选一个,它是更安全的选择——尤其是对 API 成本敏感的团队。

Claude Opus 4.6 是我做复杂重构时的选择。在跨文件依赖、多 Agent 协作、长上下文理解上,它仍然是我见过最可靠的工具。那个溢价,在对的场景下是值得的。

两个月前 Claude 4.6 发布,OpenAI 被逼加速迭代,两天之内从 5.3 跳到 5.4。这种竞争节奏对用户是好事——但也意味着今天的选型结论,三个月后可能就要重新评估。

我真正好奇的是:随着 GPT-5.4 的 Computer Use 越来越成熟,Opus 的 Agent Teams 优势还能维持多久?这个问题,我还没有答案。


你现在主力用的是哪个模型?如果你已经在跑双模型工作流,路由逻辑是怎么设计的?这个我比较想知道。