GPT-5.4 碾压 Claude Opus 4.6？跑分说了不算，场景说了算

发表于 2026-03-17 更新于 2026-07-13 分类于阅读阅读次数：本文字数： 3.8k 阅读时长 ≈ 3 分钟

对比 2026 年 3 月发布的两款旗舰模型 GPT-5.4 与 Claude Opus 4.6，前者在 SWE-Bench Pro 拿到 57.7%、API 输入价格约为 Opus 的六分之一，后者以 80.8% 领跑 SWE-Bench Verified 并更擅长跨文件重构，结论是按自身使用场景选型而非只看跑分高低。

cover

3 月 5 日，OpenAI 发布了 GPT-5.4。

我当时正在用 Claude Code 跑一个重构任务，看到推送通知的时候没有立刻停下来——因为我知道接下来几天技术群里会充斥着”碾压一切”和”Claude 要凉了”，等噪音散去再看数据更有效率。

等了三天，我把两个模型的基准测试、定价、实际开发体验拉通对比了一遍。结论是：没有谁碾压谁。它们赢在不同的地方，输也输在不同的地方。 你该用哪个，取决于你在做什么——不是取决于哪个跑分更高。

先看事实：两个模型各自长什么样

GPT-5.4 是 OpenAI GPT-5 系列的第四次迭代，2026 年 3 月 5 日发布。主要亮点：

可调推理深度：5 档（none / low / medium / high / xhigh），每次请求可以独立设置
Computer Use API：原生桌面操控——看屏幕、移鼠标、点按钮、打字
100 万 token 上下文窗口
GPT-5.4 Pro 变体：面向最难任务的高性能版本
定价：API 输入 $2.50/M tokens，输出 $15/M tokens

Claude Opus 4.6 是 Anthropic 的旗舰模型，2026 年 2 月 5 日发布。主要亮点：

SWE-Bench Verified 最高分：80.8%，编程基准测试的标杆
Agent Teams：多个 Opus 实例并行协作，共享任务列表
100 万 token 上下文窗口（Beta）
自适应思考：4 档推理力度
Chatbot Arena ELO 全球第一：1503 分
定价：API 输入 $15/M tokens，输出 $75/M tokens

两个模型发布时间只差一个月。定位几乎完全重叠：面向专业开发者的旗舰级大模型。

正面交锋，不可避免。

跑分对比：谁赢了？

答案是：看哪个跑分。

基准测试	GPT-5.4	Claude Opus 4.6	赢家
SWE-Bench Verified（标准编程）	~80.0%	80.8%	Opus 4.6
SWE-Bench Pro（更难编程）	57.7%	~45%	GPT-5.4
Terminal-Bench 2.0（终端操作）	75.1%	65.4%	GPT-5.4
OSWorld（桌面操控）	75.0%	72.7%	GPT-5.4
GPQA Diamond（科学推理）	92.8%	91.3%	GPT-5.4
MMMU Pro（视觉理解）	—	85.1%	Opus 4.6
MRCR v2 1M（长上下文检索）	—	76.0%	Opus 4.6
GDPval（知识工作）	83.0%	—	GPT-5.4
Chatbot Arena ELO（用户偏好）	—	1503	Opus 4.6

看到了吗？不是一边倒。

GPT-5.4 在 SWE-Bench Pro、Terminal-Bench、OSWorld、GDPval 上领先。Claude Opus 4.6 在 SWE-Bench Verified、MMMU Pro、长上下文检索、用户偏好上领先。

一个关键细节：SWE-Bench 有两个版本。Verified 是标准版，Opus 以 80.8% 领先。Pro 是更难、更不容易「刷分」的变体，GPT-5.4 以 57.7% 大幅领先。你信哪个？取决于你对基准测试本身的看法。

Artificial Analysis 的综合智能指数显示，GPT-5.4 排名第一——但紧随其后的是 Gemini 3.1 Pro，Claude Opus 4.6 在多 Agent 编排维度上排名第一。

跑分告诉你的是「理论上限」，而不是「你的场景下谁更好」。

定价对比：差距比跑分大得多

如果说跑分是五五开，定价上 GPT-5.4 赢得很明显。

模型	输入价格（/M tokens）	输出价格（/M tokens）
GPT-5.4	$2.50	$15
GPT-5.4 Pro	$30	$180
Claude Opus 4.6	$15	$75
Claude Sonnet 4.6	$3	$15

GPT-5.4 标准版的输入价格是 Opus 的 六分之一，输出价格是 Opus 的 五分之一。

更关键的是，GPT-5.4 在复杂任务上消耗的 token 比前代少了 **47%**。价格更低 + 效率更高，叠加起来差距惊人。NxCode 的分析指出：一个用 Opus 花 $1 的任务，GPT-5.4 可能只要 $0.10-$0.15。

但如果你用的是订阅制——ChatGPT Plus $20/月 vs Claude Pro $20/月——价格完全一样。差异只在 API 调用层面。对于高频 API 用户，这个价格差是选型时绕不过去的因素。

GPT-5.4 赢在哪

1. 桌面操控：第一个超越人类的模型

GPT-5.4 在 OSWorld 基准测试中拿了 75%，超过了人类专家的 72.4%。这是第一个在桌面操作任务上超越人类表现的 AI 模型。

它能看屏幕、移鼠标、点按钮、填表单、在多个应用之间切换完成工作流。如果你的工作涉及自动化测试、UI 操作、桌面流程自动化，GPT-5.4 是目前唯一的选择。

2. 推理深度可调：一个参数控制成本和质量

5 档推理深度（none / low / medium / high / xhigh）让你在每次 API 请求时灵活调整。回答 FAQ？用 none，最便宜最快。排查并发 Bug？用 xhigh，全力推理。

这个设计对生产系统特别有价值——你可以根据每条请求的复杂度动态调整，不需要为简单任务付高价。

3. 性价比：便宜就是硬道理

对于跑大量 API 调用的团队来说，GPT-5.4 的成本优势是决定性的。6 倍的价格差，在月调用量几十万次的场景下，意味着账单少一个零。

4. 全能选手：一个模型覆盖所有场景

写代码、操控电脑、分析文档、处理图片、搜索网页——GPT-5.4 用一个端点覆盖了所有能力。不需要在不同模型之间切换，生产环境的复杂度更低。

Claude Opus 4.6 赢在哪

1. 复杂多文件重构：编码的「最后一公里」

在 SWE-Bench Verified 上，Opus 4.6 以 80.8% 保持领先。但跑分之外，开发者的一致反馈是：Opus 在跨文件重构方面明显更强。

移动模块间的代码、修改类型系统、迁移框架——这种涉及多个文件之间复杂依赖关系的任务，Opus 的错误率更低。这很难在基准测试里量化，但在实际开发中体感非常明显。

DataCamp 的对比评测也确认了这一点：「Claude Opus 4.6 在多 Agent 编排维度上排名第一。」

2. Agent Teams：AI 调度 AI

这是 Opus 4.6 独有的能力——多个 Opus 实例并行工作、直接通信、共享任务列表。

想象一个场景：你让一个 Agent 写前端组件，另一个写后端 API，第三个写数据库迁移——三个同时跑，互相协调。OpenAI 目前没有对应的功能。

对于大型项目的开发团队来说，这是一个实打实的效率倍增器。

3. 长上下文理解：不只是「能装下」，还要「能找到」

Opus 在 MRCR v2 测试中拿了 76%，测的是在 100 万 token 的上下文中精准检索信息。GPT-5.4 虽然也支持百万级上下文，但在检索准确率上没有公开的对比数据。

上下文窗口大不代表用得好。就像你把一整本书放桌上，关键是能不能快速翻到你要的那一页。Opus 在这方面验证更充分。

4. 用户偏好：人觉得好用才是真的好用

Chatbot Arena 的 ELO 排名中，Claude Opus 4.6 以 1503 分全球第一。这个排名来自真实用户的盲测投票——不知道模型名字的情况下，人们更喜欢 Opus 的回复。

尤其在创意写作、多轮对话、风格适应方面，Opus 的用户满意度明显更高。

最聪明的做法：两个都用

NxCode 和 DigitalApplied 的分析不约而同地指出：2026 年最高效的开发者不是选一个模型，而是两个都用。

我自己的搭配方式：

场景	推荐模型	原因
原型开发、快速迭代	GPT-5.4	便宜、快、一个端点搞定
深度重构、代码审查	Claude Opus 4.6	多文件理解更可靠
桌面自动化、UI 测试	GPT-5.4	Computer Use 超越人类水平
大型代码库安全审计	Claude Opus 4.6	长上下文检索更准
高频 API 调用	GPT-5.4	成本低 6 倍
多 Agent 协作开发	Claude Opus 4.6	Agent Teams 独有

Kommunicate 的企业级评测建议了一个分层路由架构：高频简单请求走 GPT-5.4 省钱，复杂或关键任务升级到 Opus 4.6 保质量。

Cursor、Continue.dev 这些工具已经支持在模型之间自由切换。你的工作流可以灵活调度，不需要绑定任何一家。

我的立场

回到开头的问题：GPT-5.4 发布后，Claude Opus 4.6 要被替代吗？

不会。 但这不是因为 Opus 更好——而是因为它们不是同一把刀。

GPT-5.4 是我现在的主力模型。便宜、全能、性价比极高。如果你只能选一个，它是更安全的选择——尤其是对 API 成本敏感的团队。

Claude Opus 4.6 是我做复杂重构时的选择。在跨文件依赖、多 Agent 协作、长上下文理解上，它仍然是我见过最可靠的工具。那个溢价，在对的场景下是值得的。

两个月前 Claude 4.6 发布，OpenAI 被逼加速迭代，两天之内从 5.3 跳到 5.4。这种竞争节奏对用户是好事——但也意味着今天的选型结论，三个月后可能就要重新评估。

我真正好奇的是：随着 GPT-5.4 的 Computer Use 越来越成熟，Opus 的 Agent Teams 优势还能维持多久？这个问题，我还没有答案。

你现在主力用的是哪个模型？如果你已经在跑双模型工作流，路由逻辑是怎么设计的？这个我比较想知道。