连查出 Firefox 22 个漏洞!初级开发如何用 Claude Opus 4.6 写出大神级代码?

cover

两周。22 个安全漏洞。14 个高危。

这不是某个顶级安全团队的年度报告,而是 Claude Opus 4.6 一个 AI 模型在 Firefox 代码库里的成绩单

2026 年 2 月,Anthropic 与 Mozilla 合作,把 Opus 4.6 指向了 Firefox 的代码库。这是全世界被审计最多的开源项目之一——几十年来无数安全研究员反复翻过,持续做模糊测试,由顶尖工程师维护。

结果?Opus 4.6 扫描了近 6,000 个 C++ 文件,向 Mozilla 提交了 112 份漏洞报告,其中 22 个被确认为安全漏洞(CVE)。14 个高危漏洞,占 2025 年 Firefox 全部高危漏洞的近五分之一

更夸张的是,它找到第一个漏洞只用了 20 分钟

这件事让我想了很久。如果一个 AI 模型能在最安全的浏览器里找到这么多漏洞,那它用来帮你写代码、审代码的时候,到底能做到什么程度?

它到底是怎么找到这些漏洞的?

Anthropic 的前沿红队负责人 Logan Graham 解释了他们为什么选 Firefox 做测试:

“我们选 Firefox 是因为它是世界上被测试最充分、最安全的开源项目之一。如果 Claude 能在这里发现未知的高危 Bug,那说明了这项能力正在走向何方。”

第一步:复现历史漏洞

研究团队先用 Opus 4.6 去找旧版 Firefox 中的已知漏洞(历史 CVE)。他们惊讶地发现,Opus 4.6 能复现其中很高比例的漏洞——而每一个漏洞都是人类安全研究员花了大量精力才发现的。

这一步的意义是什么?验证模型确实具备安全审计的能力,而不是碰运气。

第二步:扫描当前代码库

验证能力后,团队把 Opus 4.6 对准了 Firefox 的当前版本。从 JavaScript 引擎开始——这是最关键的攻击面,因为它负责处理来自互联网的不受信任的代码。

20 分钟后,Opus 4.6 报告了第一个发现:一个 Use-After-Free(释放后使用)漏洞。

这是一种内存损坏漏洞,攻击者可以利用它覆盖数据、注入恶意内容。这种漏洞在浏览器中特别危险,因为用户每天都在浏览器中接触不受信任的网页内容。

Mozilla 确认后,邀请 Anthropic 继续批量提交发现。Mozilla 甚至为此动员了多个工程团队,以”事故响应”的规格来处理这批漏洞。

Mozilla 的工程总监 Tom Grinstead 说:

“这是一次大规模涌入。我们像处理安全事件一样动员起来,对 100 多个 Bug 进行了分类,并修复了其中大部分。”

第三步:尝试利用漏洞

找到漏洞是一回事,能不能利用又是另一回事。Anthropic 花了约 $4,000 的 API 费用,让 Opus 4.6 尝试把发现的漏洞转化为可用的攻击利用代码(exploit)。

结果:数百次尝试中,只有 2 次成功——而且只在刻意去掉了沙箱保护的测试环境中才能工作。

其中一个成功的利用针对的是 CVE-2026-2796,一个 CVSS 评分 9.8 分(满分 10 分)的关键漏洞,涉及 JavaScript WebAssembly 组件的 JIT 编译错误。

Anthropic 的总结是:

“Claude 在发现和修复漏洞方面远强于利用漏洞。发现漏洞的成本远低于创建利用代码的成本。”

这对防御者来说是好消息:AI 更擅长帮你堵洞,而不是帮攻击者破门。

Opus 4.6 的代码能力到底有多强?

Firefox 漏洞事件不是孤立的。Opus 4.6 在发布之前就已经在开源项目中发现了 500 多个零日漏洞,包括 Linux 内核中的漏洞。

这种能力背后,是 Opus 4.6 在编码基准测试上的全面突破:

基准测试 Opus 4.6 说明
SWE-bench Verified 80.8% 解决真实 GitHub Issue 的能力
ARC-AGI-2 68.8% 抽象推理,前代仅 37.6%,翻了近一倍
GPQA Diamond 91.3% 研究生级别的推理能力
1M 上下文窗口 支持 可同时分析整个大型代码库

Anthropic 在发布说明中的描述很精准:

“Opus 4.6 更仔细地规划,更长时间地维持 Agent 任务,在大型代码库中更可靠地运行,并且有更好的代码审查和调试能力来捕捉自己的错误。”

关键词是”捕捉自己的错误“——这是以前的模型做不好的地方。

初级开发者怎么用 Opus 4.6?

看到这里你可能会想:漏洞发现是安全专家的事,跟我一个写 CRUD 的初级开发者有什么关系?

关系大了。 同样的能力用在不同场景上,效果完全不同。

1. 让 Opus 4.6 做你的代码审查员

Opus 4.6 能在 Firefox 这种顶级代码库里找到高危漏洞,你觉得它审查你的代码会有什么效果?

在 Claude Code 里,你可以随时让它审查你刚写的代码:

1
2
3
4
5
6
"请审查我刚才写的这段认证逻辑。
重点检查:
1. 是否有 SQL 注入风险
2. 是否有权限绕过的可能
3. 错误处理是否完整
4. 有没有竞态条件"

Opus 4.6 不只是做语法检查——它会推理代码的执行路径,像人类安全研究员一样理解组件之间的交互。这是它和传统代码扫描工具(如 ESLint、SonarQube)的本质区别。

传统工具匹配已知模式。Opus 4.6 理解代码逻辑。

2. 用 Plan 模式做架构设计

Opus 4.6 最大的提升之一是规划能力。它能更仔细地分析问题,制定多步骤方案,然后系统性地执行。

在 Claude Code 里按 Shift+Tab 进入 Plan 模式:

1
2
3
4
5
6
"我要做一个用户权限系统。
需求:基于角色的访问控制(RBAC),
支持多级权限继承,
需要审计日志。

请先分析方案,不要直接写代码。"

Opus 4.6 会给你一个完整的方案——数据模型、API 设计、安全考虑、边界情况——然后你确认后再执行。

这种”先想后做”的工作方式,是高级工程师的习惯。 用 Opus 4.6 帮你建立这个习惯,你的成长速度会比同龄人快得多。

3. 用 1M 上下文理解大型项目

初级开发者面对一个新项目最头疼的事是什么?看不懂代码。

几十个文件,上千行逻辑,错综复杂的依赖关系。以前你只能一个文件一个文件地啃,花几天甚至几周才能理清全貌。

Opus 4.6 的 1M 上下文窗口可以一次性吃进整个项目。你直接问:

1
2
3
4
5
6
"请分析这个项目的整体架构。
告诉我:
1. 数据流是怎么走的
2. 核心模块之间的依赖关系
3. 哪些文件是改动最多的热点
4. 有没有明显的技术债"

这就像在 Firefox 的 6,000 个 C++ 文件里找漏洞一样——Opus 4.6 的全局理解能力,正好可以帮你快速建立对项目的整体认知。

4. 让 Claude Code Security 帮你写更安全的代码

Anthropic 刚发布了 Claude Code Security(限量预览),这是 Firefox 漏洞研究的直接产物。它的工作方式是:

  1. 扫描你的代码库
  2. 识别高危漏洞(内存损坏、注入漏洞、认证绕过等)
  3. 自动生成修复补丁

跟传统 SAST 工具不同,Claude Code Security 不是匹配已知模式,而是像人类安全研究员一样推理代码逻辑——理解组件交互、追踪数据流向、发现复杂的业务逻辑缺陷。

目前仅对 Enterprise/Team 客户和开源项目维护者开放。但它代表了 AI 编程工具的下一个方向:不只是帮你写代码,还帮你写安全的代码。

5. 善用模型切换策略

不是所有任务都需要 Opus。一个聪明的策略:

任务类型 推荐模型 原因
架构设计、复杂调试 Opus 4.6 最强推理能力
日常编码、简单修改 Sonnet 4.6 性能接近,成本降 80%
格式调整、快速问答 Haiku 最快最省
安全审查 Opus 4.6 Firefox 级别的漏洞发现能力

SWE-bench 上 Sonnet 4.6 得分 79.6%,跟 Opus 的 80.8% 只差 1.2 个百分点。大多数日常编码任务,Sonnet 就够了。把 Opus 的额度留给真正需要深度推理的场景。

一个更大的启示

Firefox 事件给整个行业敲了一记警钟。

PCMag 的标题说得很直接:**”Anthropic 的 Claude 在 Firefox 中找到的 Bug 比人类团队还多。”**

但更值得关注的是经济账。传统漏洞研究是高成本、高技能的工作,一个高危浏览器漏洞在 Bug Bounty 市场上的赏金是 $3,000 到 $20,000+。而 Opus 4.6 用 $4,000 的 API 费用,两周发现了 22 个。

发现漏洞的成本正在被 AI 急剧压低。

这对初级开发者意味着什么?安全不再是只有专家才能做的事情。 你现在就可以用 Opus 4.6 对自己的代码做安全审计,发现那些你肉眼看不到的漏洞。

当然,AI 也不是万能的。Sonar 的分析很到位:

“Claude Code Security 是对现有工具的补充,不是替代。最强的安全姿态是两者结合使用。”

Opus 4.6 找到了人类找不到的漏洞,但人类仍然需要验证这些发现、判断其真实影响、制定修复优先级。AI 发现问题,人类做决策——这是最优分工。

写在最后

Claude Opus 4.6 在 Firefox 上的表现,不只是一个安全新闻。它展示了 AI 编程工具正在到达的一个新高度:不只是写代码,而是理解代码。

理解到什么程度?理解到能在世界上最安全的浏览器里找到 22 个漏洞的程度。

作为初级开发者,你不需要成为安全专家,也不需要花几年练就”大神”的直觉。你需要做的是学会使用这个工具——让它帮你审代码、做架构、理解项目、发现漏洞。

这不是作弊。这是新时代的工作方式。

就像 Firefox 事件告诉我们的:人类找了几十年没找到的漏洞,AI 用 20 分钟就找到了。 这种能力现在就在你的终端里。

打开 Claude Code,输入 /model opus,把你最近写的代码丢给它审查一下。你可能会对结果感到惊讶。

你用 Opus 4.6 做过什么印象深刻的事?有没有发现过自己代码里隐藏的安全问题?欢迎评论区分享你的故事。