Opus 4.8 上手实测:同价升级,老用户该不该立刻从 4.7 切过去

cover

哈喽,我是飞飞。

昨天打开 Claude Code,顶上提示 Opus 4.8 可用了。说实话,我没急着点升级。用过几代模型的人都有这条件反射:新版本一冒头,心里先打鼓的是切过去会不会更慢、更贵,把顺手的工作流搞乱。强不强是后面的事,能不能平滑切过去才是当下最关心的。

我盯着那行价格看了两秒,松了口气。常规价格跟 4.7 一模一样,输入 5 美元、输出 25 美元,每百万 token。也就是说,切过去这件事,几乎不要钱。

这两天我把日常的活儿都搬到 4.8 上跑了一遍,从写代码、做 review 到跑一次性脚本。该不该切,我心里已经有答案了。

切过去几乎零成本,这是让我最先松口气的地方

价格不变,这次升级就没有「要不要为新模型多掏钱」的纠结。

我用的是 Claude Code,切模型就是在配置里把模型 id 从 claude-opus-4-7 改成 claude-opus-4.8,存盘、重启一下就生效,前后不到一分钟。切之前我还特意留了条后路:万一手感不对,把那行改回去也是几秒钟的事,之前跑了一半的项目不会受影响。说白了,这是一次可以随时反悔的升级。

Claude Code 里 /model 切换:Opus 4.8 已是默认模型,还能调 effort

我想起前两年换模型那阵子,光是担心「新版本是不是更贵」「上下文是不是变小了」就要纠结半天,有时候还得重新调一遍 prompt。这次完全没有这些负担。价格那一栏数字没动,等于把决策里最让人犹豫的那一项直接划掉了。

除了价格不变,还有个意外的福利:每次 Anthropic 发新模型,你的用量额度会跟着重置一次。我切到 4.8 顺手打开用量面板,当前会话和每周的限额全归零了,等于白送一波额度。发版即清零,这点确实挺良心。

切到 Opus 4.8 后我的 Max(5x)用量面板,会话与每周额度全部归零

对老用户来说,门槛低到这种程度,基本就没有「再等等看」的理由。你等着观望的那几天,别人已经在用新版本干活了,等的成本反而比切的成本高。

真正让我觉得切对了的,是代码漏检这件事

切过去半天,速度我没太大感觉,倒是它挑错的能力先让我注意到了。

Anthropic 给的数字是,4.8 漏掉代码缺陷的概率比 4.7 低了大约 4 倍。这种数字听着抽象,但落到具体的活儿上,体感很直接。

我手上有个跑了一年多的老项目,前阵子让 4.7 做 code review。有一处多线程读写共享变量的地方没加锁,它扫过去没吭声,我也就放过了。结果上线之后那块逻辑在高峰期偶发崩了一次,日志里只留下一行看不出头绪的报错。这种漏报是最磨人的,因为你以为它已经替你看过了,心里那道防线就松了。

换到 4.8,我把同一段逻辑重新丢给它过了一遍。它这回直接点出那个共享变量没加锁,还顺手提醒我隔壁有个边界条件没覆盖,传进来的列表为空时会越界。两个坑,一次性都给我指出来了。

就这一件事,对天天靠它兜底 review 的人来说,比任何榜单分数都实在。少漏一个坑,可能就是少一次半夜被电话叫起来排查线上故障的经历。做大重构的时候这种差别更明显,几百行改动里只要它能多盯出一两个隐患,省下的回滚和返工时间就够本了。

effort 这个旋钮,把「快还是准」的决定权交回给我

4.8 还多了个我挺喜欢的开关,叫 effort,也就是任务投入度。

简单讲,就是你能告诉它这活儿值得花多大力气。调高,它会多想几轮、多花点 token,答案更稳更细;调低,它回得更快、也更省钱。以前这件事是模型自己拿主意,你只能被动接受它给的节奏,现在这个旋钮攥在我手里了。

Claude 网页端:Opus 4.8 配合 Effort 投入度,可按 thoroughness 或 speed 来调

我现在的用法是分着来。让它改个变量名、补段注释、写个一次性的小脚本,这种不烧脑的琐事我把 effort 压到低档,图的就是个快,秒回。碰上要重构一整个模块,或者捋一段我自己都没完全想明白的业务逻辑,我就把它拉满,泡杯茶让它慢慢来,回来再看它给的方案。

这种掌控感,比模型一刀切舒服太多。以前要么嫌它想得太久、简单的活也磨叽,要么嫌它想得不够、复杂的活给得潦草。现在我能按活儿的轻重自己配,钱和时间都花在该花的地方。

那个降价到三分之一的快速模式,得看场景算账

除了 effort,4.8 还带了个快速模式。

它按 2.5 倍速度出结果,token 单价是常规的两倍,输入 10 美元、输出 50 美元。单看单价是涨了,但关键在后半句:这个价格,只有上一代同类快速模式的三分之一。也就是说,同样图快,现在花的钱比以前少了一大截。

值不值,得看你拿它干什么。我自己的账是这么算的。补全、改个小 bug、跑个一次性脚本这种高频又不费脑子的活,我愿意开快速模式。单次省下的那几秒看着不起眼,可一天下来我要跟它来回几十趟,累积起来省的时间相当可观,写代码的节奏明显更跟手。

但要让它做深度推理、啃复杂架构,我就不开了。那种活慢一点没关系,我图的是它想得准、想得全。为了快多掏一倍单价,去赌一个本来就该慢慢想的任务,反而容易因小失大。快速模式适合「我现在就要结果」的小事,真正烧脑的大活还是交给常规模式慢慢磨。

别神化:它不会的活,4.8 照样不会

说了这么多好话,也得泼盆冷水。

4.8 是升级,不是换了个脑子。Simon Willison 试完给了句很克制的评价,说这是一次「不大但实在的进步」。我用下来基本同意。

它擅长的地方更稳了,挑错更准、判断更靠谱、工具调用更利索。但它本来搞不定的领域,照样搞不定。

我让它帮我重构一个老模块,它兴冲冲建议把一个底层接口的返回结构改了,看着挺合理。问题是那个接口还有另一个端在用,改了对面就崩。这种藏在业务里、只有我自己知道的隐性约束,它不可能凭代码看出来。

还有那些需要我自己拍板的架构取舍,它能给你列选项,但替你下决定这一步,永远得你自己来。能力天花板没被掀翻,被磨平的是毛刺。

这次还顺手在 Claude Code 里上了个「动态工作流」,号称一个会话能并行调度几百个子 agent 去啃跨库迁移这种大活。我还没摸到,它现在是研究预览阶段,得账号有权限才能开。等我能用上了再单独跟你聊。

切,但当它是补丁:effort 档位和动态工作流是我还在试的两件事

绕了一圈,结论其实很简单。

常规价格没涨,挑错明显变准,还多了 effort 和快速模式两个能省时省钱的开关。对每天用 Claude Code 干活的老用户,我实在想不出不切的理由。改一行配置的事,切了不亏,最差也能改回去。

但你也别指望它把你不会的活变会。把它当成一次把工具磨利的补丁升级,心态会舒服很多。省下纠结「要不要切」的那点劲,花在打磨自己的工作流上,回报高得多。

我自己接下来还在试两件具体的事:一个是 effort 到底调到哪一档,能在省钱和不掉链子之间找到那个甜点;另一个是那个动态工作流真拿到权限之后,跟我现在手搓的 agent 编排比,到底能帮我省下多少事。

你切了吗?切过去之后,哪类活让你觉得这钱花得值,哪类又让你觉得其实没差?评论区告诉我,我想对照下自己的判断准不准。


参考资料

  • [[opus-4-8-anthropic-newsroom]]
  • [[opus-4-8-simon-willison]]

相关洞察

  • [[opus-4-8-should-you-switch]]