GPT-5.5 发布当天,Tibo 两天前那句 "we have the compute" 被兑现了

大家好,我是飞飞。
今天早上拉开窗帘,手机里 OpenAI 的推送先跳出来:GPT-5.5,代号”Spud”,已经开始给 Plus、Pro、Business、Enterprise 用户推送了。我昨天下午刚写完那篇讲 Copilot 停注册 + Claude Code 从 Pro 套餐下架的文章,里头我专门贴了 OpenAI Codex 负责人 Tibo 4 月 21 号那条 tweet:”We have the compute and efficient models to support it.”
那时候那句话我读起来还有点像口头表态。48 小时之后 OpenAI 把一个比 Claude Opus 4.7 高出 13 个百分点的新模型砸下来,那句话就变成实打实的动作了。
这一周从 4 月 20 号开始,AI 编程圈连着三件大事:GitHub 停 Copilot 个人订阅、Anthropic 把 Claude Code 从 Pro $20 页面拿掉、今天 OpenAI 放出 GPT-5.5。三件事的时间间隔不到 72 小时。
先把这次发布的东西摆出来
4 月 23 号下午(美西),OpenAI 把 GPT-5.5 正式发布。
距离 GPT-5.4(3 月 5 号)过去七周。按 Decrypt 的说法,GPT-5.3 到 5.4 只隔了两天,所以七周在现在的节奏里已经算长了。
几条关键信息:
- 定位:OpenAI 自己的原话是 “our smartest and most intuitive-to-use model yet”。MarkTechPost 透露了一个更有分量的信息:这是从 GPT-4.5 以来第一个完整重新训练的基础模型,不是在 GPT-5 基础上继续微调的。
- 谁能用:ChatGPT Plus、Pro、Business、Enterprise 今天开始推送。GPT-5.5 Pro 只给 Pro、Business、Enterprise。Free 用户没份。
- API:这是今天最反常的一点。OpenAI 明确说 GPT-5.5 和 GPT-5.5 Pro 今天不进 API,理由原文是”API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale”。承诺”very soon”。
- Codex 环境:400K context window,还有 Fast 模式(生成速度快 1.5x,但成本贵 2.5x)。
- 安全:OpenAI 说是”strongest set of safeguards to date”,发布前找了近 200 个 early-access 合作伙伴做真实场景测试,在高级网络安全和生物学能力上加了 targeted testing。
代号”Spud”这个细节是 Axios 的 Ina Fried 从 briefing 里挖出来的。Spud 就是土豆,OpenAI 内部给模型起代号的梗已经不是一天两天了(GPT-4.5 的代号是 Orion)。Greg Brockman 在媒体 briefing 上承认:”there are enough model releases that it’s probably getting hard to distinguish one from another”。这句话比”new class of intelligence”坦诚得多。
Terminal-Bench 2.0 拿了 82.7%,把 Opus 4.7 甩出 13 个点
这轮发布最硬的一张图是 Terminal-Bench 2.0 的跑分。这个 benchmark 测模型在命令行里做复杂工作流的能力,需要规划、迭代用工具、根据前一步的结果决定下一步。
结果:
- GPT-5.5:82.7%
- Claude Opus 4.7:69.4%
- Gemini 3.1 Pro:68.5%
13 个百分点的差距在这种 benchmark 上不是 marginal。Terminal-Bench 2.0 不像 SWE-Bench 那种单点测试,它测的是”交给你一个任务,走完整条流水线”这种情况下的累计准确率,每一步的错误都会放大后面的路径。
另一个数字 GDPval 更有意思。这个是 OpenAI 自己的 benchmark,拿 44 个真实职业(财务、法律研究、产品管理等等)的典型任务,让 GPT-5.5 和行业专业人士做对照评估。GPT-5.5 在 84.9% 的比较里 match 或打败了行业专业人士。
我个人读这个数字持保留态度。OpenAI 自家 benchmark 定义的”match 或打败”怎么评、评测者有没有偏好,这些 methodology 细节没公开完整。但即使打个七折,也是跨职业知识工作上一次明显的能力跃迁。
GPT-5.5 Pro 在 BrowseComp(测模型在网上挖难找信息的能力)上拿了 90.1%,Gemini 3.1 Pro 是 85.9%。
Artificial Analysis Intelligence Index 目前把 GPT-5.5 列为平均最高分的模型。
SWE-Bench Pro 输给了 Claude,OpenAI 放了一句暗讽
这节我觉得是今天 blog post 里最有味道的部分。
SWE-Bench Pro 测的是模型解决真实 GitHub issue 的能力。这次跑分:
- GPT-5.5:58.6%
- Claude Opus 4.7:64.3%
OpenAI 输了,输了 5.7 个点。
但 OpenAI 在公告里加了一行意味深长的话:”Anthropic reported signs of memorization on a subset of problems”。翻译过来:Claude Opus 4.7 在 SWE-Bench Pro 的一部分题目上,有迹象是把训练集里的解法记下来了而不是真正推理出来的。
这句话不是随便说的。Anthropic 自己是不是真的承认过 memorization、承认到什么程度、对应的是哪些题目,目前 OpenAI 没给 citation。但这种”我知道你们在这个题目上作弊了”的暗刺,两家头部实验室之间少见。
Terminal-Bench 2.0 上 Opus 4.7 被甩 13 个点,这是 OpenAI 正面拿下来的。SWE-Bench Pro 上被 Opus 4.7 反超 5.7 个点,OpenAI 没认,而是选择质疑 Anthropic 的 methodology。这两个跑分反应合起来才完整:正面赢的地方放结果,反面输的地方找理由。
对开发者来说,这两个 benchmark 对应的工作形态不一样。Terminal-Bench 偏 agentic 的 end-to-end 流水线,SWE-Bench Pro 更像单点的 bug 修复和 PR 生成。哪种场景多,选哪个模型就更合适。
$5/$30 的 API 定价把 GPT-5.4 翻了一倍
API 的定价是今天第二个让人停下来看的数字。
GPT-5.5 进 API 之后(官方说”very soon”)的价格:
- 输入:$5 / 百万 token
- 输入(cached):$0.50 / 百万 token
- 输出:$30 / 百万 token
对比 GPT-5.4($2.50 / 百万 token 输入,$15 / 百万 token 输出),GPT-5.5 刚好翻了一倍。
GPT-5.5 Pro 的 API 价格则跟 GPT-5.4 Pro 持平,没涨:$30 / 百万 token 输入,$180 / 百万 token 输出。
Sam Altman 今天在 X 上专门出来解释:”GPT-5.5 完成同样的 Codex 任务用更少的 token,所以实际账单不一定更贵。” 他原话没说”cheaper per task”,他的说法是”cheaper runs even at a higher per-token rate”。
我读完这段感觉 OpenAI 是在借 Anthropic 这周把 Claude Code 从 Pro 砍掉的窗口,把涨价往”token 效率换单价”的逻辑上包。市场这周正好已经被教育过”扁平订阅制撑不住大模型算力”,这种说法现在说出来,阻力比一个月前小得多。
对照一下 Anthropic 的 Opus 4.7:输入 $5 / 百万 token,输出 $25 / 百万 token,还带 7.5x 请求乘数(我昨天那篇里写过)。GPT-5.5 的输出价是 $30,比 Opus 4.7 的 $25 贵 20%。头部模型的 API 价差第一次这么拉开。
对一个刚刚纠结要不要切 Codex 的 Max 5x 用户意味着什么
这段是我写到这儿最真实的感受。
我自己是 Claude Max 5x $100/月 的订阅者。昨天那篇文章里我写过,过去半年我给新人推荐入门路径一直是 Claude Pro $20 + Claude Code,这周这条路基本走不通了。我自己留在 Max 5x 是因为 Claude Sonnet 4.6 的代码质量对我目前的工作流最顺手。
今天 GPT-5.5 出来之后,这个判断我要重新测了。
几个硬对比:
- $20 档位:ChatGPT Plus $20 今天就能用 GPT-5.5(Thinking 模式)+ Codex 跑 agentic 工作流。Claude Pro $20 这一档 Claude Code 的权限正在被 A/B 测着往下砍。入门用户的推荐目前应该是 Plus 了,哪怕 Anthropic 24 小时后把 Pro 的改动又滚回去。
- $100-$200 重度用户:我这一档现在其实没有立刻切的理由。Claude Sonnet 4.6 的代码质量我用了一个月基本摸清了,Opus 4.7 的 $25/M 输出 + 7.5x 乘数我也跑进了 budget 里。切 Codex 要重新跑十几个我最常踩坑的 prompt 对比 tool use 行为,成本不低。
- API 用户:这是今天最别扭的那群人。GPT-5.5 今天没进 API,想用的人只能等”very soon”。但要用的时候要接受 $5/$30 的定价翻倍。Opus 4.7 的 API 在那放着,Anthropic 的 Amazon 250 亿 5GW 协议还在建。
我接下来两周会做的事是:在 Plus 账号里把我过去一个月最常在 Claude Code 里跑的 10 个复杂任务重新跑一遍,看 Codex 的 tool use 顺手不顺手,尤其是 Terminal-Bench 类型的 end-to-end 工作流。如果 GPT-5.5 能在那 10 个任务里赢 7 个,API 一开我就切一部分调用过去。
API 什么时候开,才是今天真正该盯的事
今天所有报道里都写了”API coming very soon”。”very soon”在 OpenAI 这家公司的历史上可以是两周也可以是四个月。
如果 API 两周内开,开发者生态会在 5 月中旬就开始倒向 GPT-5.5(尤其 Cursor、Windsurf 这类 IDE 工具,他们接入新模型只需要改几行 config)。Anthropic 那边 Opus 4.7 的请求乘数如果到 4 月 30 号促销结束后还不调整,压力会直接上到定价页。
如果 API 拖到 Q3 才开,市场会看成是 OpenAI 算力不够(跟 Anthropic 这周的理由一样),只够先服务 ChatGPT 订阅用户,API 放出来会把现有的供给拉爆。
所以我今天写完这篇,想留的问题是这个:你如果每天跑 agent 写代码,GPT-5.5 API 什么时候开之前你会切吗?还是等它进 API、你能在自己的工作流里 A/B 之后再决定?
特别想听两类人的答案。一类是每天在 Codex 或者 Claude Code 里 vibe coding 的个人开发者;一类是在公司里管 dev tools 采购的,你们看 $5/$30 的价格翻倍会重新算 TCO 吗?
评论区聊。
参考资料
- OpenAI - Introducing GPT-5.5
- TechCrunch - OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’
- Axios - OpenAI releases “Spud” GPT-5.5 model
- CNBC - OpenAI announces GPT-5.5, its latest artificial intelligence model
- Decrypt - OpenAI Releases GPT-5.5: Faster, Smarter—And Pricier
- 9to5Mac - OpenAI upgrades ChatGPT and Codex with GPT-5.5
- Bloomberg - OpenAI Unveils GPT-5.5 to Field Tasks With Limited Instructions
- Fortune - OpenAI launches GPT-5.5 just weeks after GPT-5.4
- MarkTechPost - OpenAI Releases GPT-5.5, a Fully Retrained Agentic Model