GPT-5.5 发布当天，Tibo 两天前那句 "we have the compute" 被兑现了

发表于 2026-04-24 更新于 2026-07-13 分类于产品阅读次数：本文字数： 5.1k 阅读时长 ≈ 5 分钟

解读 OpenAI 正式发布的新模型 GPT-5.5（代号 Spud，是 GPT-4.5 以来首个完整重新训练的基础模型），在 Terminal-Bench 2.0 上拿下 82.7% 领先 Claude Opus 4.7 约 13 个百分点，但 SWE-Bench Pro 以 58.6% 输给对方的 64.3%，API 定价输入 5 美元输出 30 美元较上一代翻倍且暂未开放接口。

cover

大家好，我是飞飞。

今天早上拉开窗帘，手机里 OpenAI 的推送先跳出来：GPT-5.5，代号”Spud”，已经开始给 Plus、Pro、Business、Enterprise 用户推送了。我昨天下午刚写完那篇讲 Copilot 停注册 + Claude Code 从 Pro 套餐下架的文章，里头我专门贴了 OpenAI Codex 负责人 Tibo 4 月 21 号那条 tweet：”We have the compute and efficient models to support it.”

那时候那句话我读起来还有点像口头表态。48 小时之后 OpenAI 把一个比 Claude Opus 4.7 高出 13 个百分点的新模型砸下来，那句话就变成实打实的动作了。

这一周从 4 月 20 号开始，AI 编程圈连着三件大事：GitHub 停 Copilot 个人订阅、Anthropic 把 Claude Code 从 Pro $20 页面拿掉、今天 OpenAI 放出 GPT-5.5。三件事的时间间隔不到 72 小时。

先把这次发布的东西摆出来

4 月 23 号下午（美西），OpenAI 把 GPT-5.5 正式发布。

距离 GPT-5.4（3 月 5 号）过去七周。按 Decrypt 的说法，GPT-5.3 到 5.4 只隔了两天，所以七周在现在的节奏里已经算长了。

几条关键信息：

定位：OpenAI 自己的原话是 “our smartest and most intuitive-to-use model yet”。MarkTechPost 透露了一个更有分量的信息：这是从 GPT-4.5 以来第一个完整重新训练的基础模型，不是在 GPT-5 基础上继续微调的。
谁能用：ChatGPT Plus、Pro、Business、Enterprise 今天开始推送。GPT-5.5 Pro 只给 Pro、Business、Enterprise。Free 用户没份。
API：这是今天最反常的一点。OpenAI 明确说 GPT-5.5 和 GPT-5.5 Pro 今天不进 API，理由原文是”API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale”。承诺”very soon”。
Codex 环境：400K context window，还有 Fast 模式（生成速度快 1.5x，但成本贵 2.5x）。
安全：OpenAI 说是”strongest set of safeguards to date”，发布前找了近 200 个 early-access 合作伙伴做真实场景测试，在高级网络安全和生物学能力上加了 targeted testing。

代号”Spud”这个细节是 Axios 的 Ina Fried 从 briefing 里挖出来的。Spud 就是土豆，OpenAI 内部给模型起代号的梗已经不是一天两天了（GPT-4.5 的代号是 Orion）。Greg Brockman 在媒体 briefing 上承认：”there are enough model releases that it’s probably getting hard to distinguish one from another”。这句话比”new class of intelligence”坦诚得多。

Terminal-Bench 2.0 拿了 82.7%，把 Opus 4.7 甩出 13 个点

这轮发布最硬的一张图是 Terminal-Bench 2.0 的跑分。这个 benchmark 测模型在命令行里做复杂工作流的能力，需要规划、迭代用工具、根据前一步的结果决定下一步。

结果：

GPT-5.5：82.7%
Claude Opus 4.7：69.4%
Gemini 3.1 Pro：68.5%

13 个百分点的差距在这种 benchmark 上不是 marginal。Terminal-Bench 2.0 不像 SWE-Bench 那种单点测试，它测的是”交给你一个任务，走完整条流水线”这种情况下的累计准确率，每一步的错误都会放大后面的路径。

另一个数字 GDPval 更有意思。这个是 OpenAI 自己的 benchmark，拿 44 个真实职业（财务、法律研究、产品管理等等）的典型任务，让 GPT-5.5 和行业专业人士做对照评估。GPT-5.5 在 84.9% 的比较里 match 或打败了行业专业人士。

我个人读这个数字持保留态度。OpenAI 自家 benchmark 定义的”match 或打败”怎么评、评测者有没有偏好，这些 methodology 细节没公开完整。但即使打个七折，也是跨职业知识工作上一次明显的能力跃迁。

GPT-5.5 Pro 在 BrowseComp（测模型在网上挖难找信息的能力）上拿了 90.1%，Gemini 3.1 Pro 是 85.9%。

Artificial Analysis Intelligence Index 目前把 GPT-5.5 列为平均最高分的模型。

SWE-Bench Pro 输给了 Claude，OpenAI 放了一句暗讽

这节我觉得是今天 blog post 里最有味道的部分。

SWE-Bench Pro 测的是模型解决真实 GitHub issue 的能力。这次跑分：

GPT-5.5：58.6%
Claude Opus 4.7：64.3%

OpenAI 输了，输了 5.7 个点。

但 OpenAI 在公告里加了一行意味深长的话：”Anthropic reported signs of memorization on a subset of problems”。翻译过来：Claude Opus 4.7 在 SWE-Bench Pro 的一部分题目上，有迹象是把训练集里的解法记下来了而不是真正推理出来的。

这句话不是随便说的。Anthropic 自己是不是真的承认过 memorization、承认到什么程度、对应的是哪些题目，目前 OpenAI 没给 citation。但这种”我知道你们在这个题目上作弊了”的暗刺，两家头部实验室之间少见。

Terminal-Bench 2.0 上 Opus 4.7 被甩 13 个点，这是 OpenAI 正面拿下来的。SWE-Bench Pro 上被 Opus 4.7 反超 5.7 个点，OpenAI 没认，而是选择质疑 Anthropic 的 methodology。这两个跑分反应合起来才完整：正面赢的地方放结果，反面输的地方找理由。

对开发者来说，这两个 benchmark 对应的工作形态不一样。Terminal-Bench 偏 agentic 的 end-to-end 流水线，SWE-Bench Pro 更像单点的 bug 修复和 PR 生成。哪种场景多，选哪个模型就更合适。

$5/$30 的 API 定价把 GPT-5.4 翻了一倍

API 的定价是今天第二个让人停下来看的数字。

GPT-5.5 进 API 之后（官方说”very soon”）的价格：

输入：$5 / 百万 token
输入（cached）：$0.50 / 百万 token
输出：$30 / 百万 token

对比 GPT-5.4（$2.50 / 百万 token 输入，$15 / 百万 token 输出），GPT-5.5 刚好翻了一倍。

GPT-5.5 Pro 的 API 价格则跟 GPT-5.4 Pro 持平，没涨：$30 / 百万 token 输入，$180 / 百万 token 输出。

Sam Altman 今天在 X 上专门出来解释：”GPT-5.5 完成同样的 Codex 任务用更少的 token，所以实际账单不一定更贵。” 他原话没说”cheaper per task”，他的说法是”cheaper runs even at a higher per-token rate”。

我读完这段感觉 OpenAI 是在借 Anthropic 这周把 Claude Code 从 Pro 砍掉的窗口，把涨价往”token 效率换单价”的逻辑上包。市场这周正好已经被教育过”扁平订阅制撑不住大模型算力”，这种说法现在说出来，阻力比一个月前小得多。

对照一下 Anthropic 的 Opus 4.7：输入 $5 / 百万 token，输出 $25 / 百万 token，还带 7.5x 请求乘数（我昨天那篇里写过）。GPT-5.5 的输出价是 $30，比 Opus 4.7 的 $25 贵 20%。头部模型的 API 价差第一次这么拉开。

对一个刚刚纠结要不要切 Codex 的 Max 5x 用户意味着什么

这段是我写到这儿最真实的感受。

我自己是 Claude Max 5x $100/月的订阅者。昨天那篇文章里我写过，过去半年我给新人推荐入门路径一直是 Claude Pro $20 + Claude Code，这周这条路基本走不通了。我自己留在 Max 5x 是因为 Claude Sonnet 4.6 的代码质量对我目前的工作流最顺手。

今天 GPT-5.5 出来之后，这个判断我要重新测了。

几个硬对比：

$20 档位：ChatGPT Plus $20 今天就能用 GPT-5.5（Thinking 模式）+ Codex 跑 agentic 工作流。Claude Pro $20 这一档 Claude Code 的权限正在被 A/B 测着往下砍。入门用户的推荐目前应该是 Plus 了，哪怕 Anthropic 24 小时后把 Pro 的改动又滚回去。
$100-$200 重度用户：我这一档现在其实没有立刻切的理由。Claude Sonnet 4.6 的代码质量我用了一个月基本摸清了，Opus 4.7 的 $25/M 输出 + 7.5x 乘数我也跑进了 budget 里。切 Codex 要重新跑十几个我最常踩坑的 prompt 对比 tool use 行为，成本不低。
API 用户：这是今天最别扭的那群人。GPT-5.5 今天没进 API，想用的人只能等”very soon”。但要用的时候要接受 $5/$30 的定价翻倍。Opus 4.7 的 API 在那放着，Anthropic 的 Amazon 250 亿 5GW 协议还在建。

我接下来两周会做的事是：在 Plus 账号里把我过去一个月最常在 Claude Code 里跑的 10 个复杂任务重新跑一遍，看 Codex 的 tool use 顺手不顺手，尤其是 Terminal-Bench 类型的 end-to-end 工作流。如果 GPT-5.5 能在那 10 个任务里赢 7 个，API 一开我就切一部分调用过去。

API 什么时候开，才是今天真正该盯的事

今天所有报道里都写了”API coming very soon”。”very soon”在 OpenAI 这家公司的历史上可以是两周也可以是四个月。

如果 API 两周内开，开发者生态会在 5 月中旬就开始倒向 GPT-5.5（尤其 Cursor、Windsurf 这类 IDE 工具，他们接入新模型只需要改几行 config）。Anthropic 那边 Opus 4.7 的请求乘数如果到 4 月 30 号促销结束后还不调整，压力会直接上到定价页。

如果 API 拖到 Q3 才开，市场会看成是 OpenAI 算力不够（跟 Anthropic 这周的理由一样），只够先服务 ChatGPT 订阅用户，API 放出来会把现有的供给拉爆。

所以我今天写完这篇，想留的问题是这个：你如果每天跑 agent 写代码，GPT-5.5 API 什么时候开之前你会切吗？还是等它进 API、你能在自己的工作流里 A/B 之后再决定？

特别想听两类人的答案。一类是每天在 Codex 或者 Claude Code 里 vibe coding 的个人开发者；一类是在公司里管 dev tools 采购的，你们看 $5/$30 的价格翻倍会重新算 TCO 吗？

评论区聊。