GPT-5.4 碾压 Claude Opus 4.6?跑分说了不算,场景说了算

3 月 5 日,OpenAI 发布了 GPT-5.4。
我当时正在用 Claude Code 跑一个重构任务,看到推送通知的时候没有立刻停下来——因为我知道接下来几天技术群里会充斥着”碾压一切”和”Claude 要凉了”,等噪音散去再看数据更有效率。
等了三天,我把两个模型的基准测试、定价、实际开发体验拉通对比了一遍。结论是:没有谁碾压谁。它们赢在不同的地方,输也输在不同的地方。 你该用哪个,取决于你在做什么——不是取决于哪个跑分更高。
先看事实:两个模型各自长什么样
GPT-5.4 是 OpenAI GPT-5 系列的第四次迭代,2026 年 3 月 5 日发布。主要亮点:
- 可调推理深度:5 档(none / low / medium / high / xhigh),每次请求可以独立设置
- Computer Use API:原生桌面操控——看屏幕、移鼠标、点按钮、打字
- 100 万 token 上下文窗口
- GPT-5.4 Pro 变体:面向最难任务的高性能版本
- 定价:API 输入 $2.50/M tokens,输出 $15/M tokens
Claude Opus 4.6 是 Anthropic 的旗舰模型,2026 年 2 月 5 日发布。主要亮点:
- SWE-Bench Verified 最高分:80.8%,编程基准测试的标杆
- Agent Teams:多个 Opus 实例并行协作,共享任务列表
- 100 万 token 上下文窗口(Beta)
- 自适应思考:4 档推理力度
- Chatbot Arena ELO 全球第一:1503 分
- 定价:API 输入 $15/M tokens,输出 $75/M tokens
两个模型发布时间只差一个月。定位几乎完全重叠:面向专业开发者的旗舰级大模型。
正面交锋,不可避免。
跑分对比:谁赢了?
答案是:看哪个跑分。
| 基准测试 | GPT-5.4 | Claude Opus 4.6 | 赢家 |
|---|---|---|---|
| SWE-Bench Verified(标准编程) | ~80.0% | 80.8% | Opus 4.6 |
| SWE-Bench Pro(更难编程) | 57.7% | ~45% | GPT-5.4 |
| Terminal-Bench 2.0(终端操作) | 75.1% | 65.4% | GPT-5.4 |
| OSWorld(桌面操控) | 75.0% | 72.7% | GPT-5.4 |
| GPQA Diamond(科学推理) | 92.8% | 91.3% | GPT-5.4 |
| MMMU Pro(视觉理解) | — | 85.1% | Opus 4.6 |
| MRCR v2 1M(长上下文检索) | — | 76.0% | Opus 4.6 |
| GDPval(知识工作) | 83.0% | — | GPT-5.4 |
| Chatbot Arena ELO(用户偏好) | — | 1503 | Opus 4.6 |
看到了吗?不是一边倒。
GPT-5.4 在 SWE-Bench Pro、Terminal-Bench、OSWorld、GDPval 上领先。Claude Opus 4.6 在 SWE-Bench Verified、MMMU Pro、长上下文检索、用户偏好上领先。
一个关键细节:SWE-Bench 有两个版本。Verified 是标准版,Opus 以 80.8% 领先。Pro 是更难、更不容易「刷分」的变体,GPT-5.4 以 57.7% 大幅领先。你信哪个?取决于你对基准测试本身的看法。
Artificial Analysis 的综合智能指数显示,GPT-5.4 排名第一——但紧随其后的是 Gemini 3.1 Pro,Claude Opus 4.6 在多 Agent 编排维度上排名第一。
跑分告诉你的是「理论上限」,而不是「你的场景下谁更好」。
定价对比:差距比跑分大得多
如果说跑分是五五开,定价上 GPT-5.4 赢得很明显。
| 模型 | 输入价格(/M tokens) | 输出价格(/M tokens) |
|---|---|---|
| GPT-5.4 | $2.50 | $15 |
| GPT-5.4 Pro | $30 | $180 |
| Claude Opus 4.6 | $15 | $75 |
| Claude Sonnet 4.6 | $3 | $15 |
GPT-5.4 标准版的输入价格是 Opus 的 六分之一,输出价格是 Opus 的 五分之一。
更关键的是,GPT-5.4 在复杂任务上消耗的 token 比前代少了 **47%**。价格更低 + 效率更高,叠加起来差距惊人。NxCode 的分析指出:一个用 Opus 花 $1 的任务,GPT-5.4 可能只要 $0.10-$0.15。
但如果你用的是订阅制——ChatGPT Plus $20/月 vs Claude Pro $20/月——价格完全一样。差异只在 API 调用层面。对于高频 API 用户,这个价格差是选型时绕不过去的因素。
GPT-5.4 赢在哪
1. 桌面操控:第一个超越人类的模型
GPT-5.4 在 OSWorld 基准测试中拿了 75%,超过了人类专家的 72.4%。这是第一个在桌面操作任务上超越人类表现的 AI 模型。
它能看屏幕、移鼠标、点按钮、填表单、在多个应用之间切换完成工作流。如果你的工作涉及自动化测试、UI 操作、桌面流程自动化,GPT-5.4 是目前唯一的选择。
2. 推理深度可调:一个参数控制成本和质量
5 档推理深度(none / low / medium / high / xhigh)让你在每次 API 请求时灵活调整。回答 FAQ?用 none,最便宜最快。排查并发 Bug?用 xhigh,全力推理。
这个设计对生产系统特别有价值——你可以根据每条请求的复杂度动态调整,不需要为简单任务付高价。
3. 性价比:便宜就是硬道理
对于跑大量 API 调用的团队来说,GPT-5.4 的成本优势是决定性的。6 倍的价格差,在月调用量几十万次的场景下,意味着账单少一个零。
4. 全能选手:一个模型覆盖所有场景
写代码、操控电脑、分析文档、处理图片、搜索网页——GPT-5.4 用一个端点覆盖了所有能力。不需要在不同模型之间切换,生产环境的复杂度更低。
Claude Opus 4.6 赢在哪
1. 复杂多文件重构:编码的「最后一公里」
在 SWE-Bench Verified 上,Opus 4.6 以 80.8% 保持领先。但跑分之外,开发者的一致反馈是:Opus 在跨文件重构方面明显更强。
移动模块间的代码、修改类型系统、迁移框架——这种涉及多个文件之间复杂依赖关系的任务,Opus 的错误率更低。这很难在基准测试里量化,但在实际开发中体感非常明显。
DataCamp 的对比评测也确认了这一点:「Claude Opus 4.6 在多 Agent 编排维度上排名第一。」
2. Agent Teams:AI 调度 AI
这是 Opus 4.6 独有的能力——多个 Opus 实例并行工作、直接通信、共享任务列表。
想象一个场景:你让一个 Agent 写前端组件,另一个写后端 API,第三个写数据库迁移——三个同时跑,互相协调。OpenAI 目前没有对应的功能。
对于大型项目的开发团队来说,这是一个实打实的效率倍增器。
3. 长上下文理解:不只是「能装下」,还要「能找到」
Opus 在 MRCR v2 测试中拿了 76%,测的是在 100 万 token 的上下文中精准检索信息。GPT-5.4 虽然也支持百万级上下文,但在检索准确率上没有公开的对比数据。
上下文窗口大不代表用得好。就像你把一整本书放桌上,关键是能不能快速翻到你要的那一页。Opus 在这方面验证更充分。
4. 用户偏好:人觉得好用才是真的好用
Chatbot Arena 的 ELO 排名中,Claude Opus 4.6 以 1503 分全球第一。这个排名来自真实用户的盲测投票——不知道模型名字的情况下,人们更喜欢 Opus 的回复。
尤其在创意写作、多轮对话、风格适应方面,Opus 的用户满意度明显更高。
最聪明的做法:两个都用
NxCode 和 DigitalApplied 的分析不约而同地指出:2026 年最高效的开发者不是选一个模型,而是两个都用。
我自己的搭配方式:
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 原型开发、快速迭代 | GPT-5.4 | 便宜、快、一个端点搞定 |
| 深度重构、代码审查 | Claude Opus 4.6 | 多文件理解更可靠 |
| 桌面自动化、UI 测试 | GPT-5.4 | Computer Use 超越人类水平 |
| 大型代码库安全审计 | Claude Opus 4.6 | 长上下文检索更准 |
| 高频 API 调用 | GPT-5.4 | 成本低 6 倍 |
| 多 Agent 协作开发 | Claude Opus 4.6 | Agent Teams 独有 |
Kommunicate 的企业级评测建议了一个分层路由架构:高频简单请求走 GPT-5.4 省钱,复杂或关键任务升级到 Opus 4.6 保质量。
Cursor、Continue.dev 这些工具已经支持在模型之间自由切换。你的工作流可以灵活调度,不需要绑定任何一家。
我的立场
回到开头的问题:GPT-5.4 发布后,Claude Opus 4.6 要被替代吗?
不会。 但这不是因为 Opus 更好——而是因为它们不是同一把刀。
GPT-5.4 是我现在的主力模型。便宜、全能、性价比极高。如果你只能选一个,它是更安全的选择——尤其是对 API 成本敏感的团队。
Claude Opus 4.6 是我做复杂重构时的选择。在跨文件依赖、多 Agent 协作、长上下文理解上,它仍然是我见过最可靠的工具。那个溢价,在对的场景下是值得的。
两个月前 Claude 4.6 发布,OpenAI 被逼加速迭代,两天之内从 5.3 跳到 5.4。这种竞争节奏对用户是好事——但也意味着今天的选型结论,三个月后可能就要重新评估。
我真正好奇的是:随着 GPT-5.4 的 Computer Use 越来越成熟,Opus 的 Agent Teams 优势还能维持多久?这个问题,我还没有答案。
你现在主力用的是哪个模型?如果你已经在跑双模型工作流,路由逻辑是怎么设计的?这个我比较想知道。