GPT-5.4 碾压 Claude Opus 4.6?跑分说了不算,场景说了算
3 月 5 日,OpenAI 发布了 GPT-5.4。
朋友圈和技术群立刻炸了:「最强模型」「碾压一切」「Claude 要凉了」。
你打开 Twitter,看到一条被转了几千次的帖子:「GPT-5.4 在 SWE-Bench Pro 上拿了 57.7%,Claude Opus 4.6 只有 45%。差距巨大。」
你心里一紧。上个月刚把团队的 AI 工作流切到了 Claude Code + Opus 4.6,这就要推倒重来?
别急。
我花了一周时间,把两个模型的基准测试、定价、实际开发体验全部拉通对比了一遍。结论是:没有谁碾压谁。它们赢在不同的地方,输也输在不同的地方。 你该用哪个,取决于你在做什么——不是取决于哪个跑分更高。
先看事实:两个模型各自长什么样
GPT-5.4 是 OpenAI GPT-5 系列的第四次迭代,2026 年 3 月 5 日发布。主要亮点:
- 可调推理深度:5 档(none / low / medium / high / xhigh),每次请求可以独立设置
- Computer Use API:原生桌面操控——看屏幕、移鼠标、点按钮、打字
- 100 万 token 上下文窗口
- GPT-5.4 Pro 变体:面向最难任务的高性能版本
- 定价:API 输入 $2.50/M tokens,输出 $15/M tokens
Claude Opus 4.6 是 Anthropic 的旗舰模型,2026 年 2 月 5 日发布。主要亮点: