连查出 Firefox 22 个漏洞！初级开发如何用 Claude Opus 4.6 写出大神级代码？

发表于 2026-03-18 更新于 2026-07-14 分类于阅读阅读次数：本文字数： 3.9k 阅读时长 ≈ 4 分钟

记录 Claude Opus 4.6 与 Mozilla 合作审计 Firefox 的成果，扫描近 6000 个 C++ 文件提交 112 份报告、确认 22 个安全漏洞含 14 个高危，首个 Use-After-Free 仅用 20 分钟发现，并讲解初级开发者如何借它做代码审查与架构规划。

cover

两周。22 个安全漏洞。14 个高危。

这不是某个顶级安全团队的年度报告，而是 Claude Opus 4.6 一个 AI 模型在 Firefox 代码库里的成绩单。

2026 年 2 月，Anthropic 与 Mozilla 合作，把 Opus 4.6 指向了 Firefox 的代码库。这是全世界被审计最多的开源项目之一——几十年来无数安全研究员反复翻过，持续做模糊测试，由顶尖工程师维护。

结果？Opus 4.6 扫描了近 6,000 个 C++ 文件，向 Mozilla 提交了 112 份漏洞报告，其中 22 个被确认为安全漏洞（CVE）。14 个高危漏洞，占 2025 年 Firefox 全部高危漏洞的近五分之一。

更夸张的是，它找到第一个漏洞只用了 20 分钟。

这件事让我想了很久。如果一个 AI 模型能在最安全的浏览器里找到这么多漏洞，那它用来帮你写代码、审代码的时候，到底能做到什么程度？

它到底是怎么找到这些漏洞的？

Anthropic 的前沿红队负责人 Logan Graham 解释了他们为什么选 Firefox 做测试：

“我们选 Firefox 是因为它是世界上被测试最充分、最安全的开源项目之一。如果 Claude 能在这里发现未知的高危 Bug，那说明了这项能力正在走向何方。”

第一步：复现历史漏洞

研究团队先用 Opus 4.6 去找旧版 Firefox 中的已知漏洞（历史 CVE）。他们惊讶地发现，Opus 4.6 能复现其中很高比例的漏洞——而每一个漏洞都是人类安全研究员花了大量精力才发现的。

这一步的意义是什么？验证模型确实具备安全审计的能力，而不是碰运气。

第二步：扫描当前代码库

验证能力后，团队把 Opus 4.6 对准了 Firefox 的当前版本。从 JavaScript 引擎开始——这是最关键的攻击面，因为它负责处理来自互联网的不受信任的代码。

20 分钟后，Opus 4.6 报告了第一个发现：一个 Use-After-Free（释放后使用）漏洞。

这是一种内存损坏漏洞，攻击者可以利用它覆盖数据、注入恶意内容。这种漏洞在浏览器中特别危险，因为用户每天都在浏览器中接触不受信任的网页内容。

Mozilla 确认后，邀请 Anthropic 继续批量提交发现。Mozilla 甚至为此动员了多个工程团队，以”事故响应”的规格来处理这批漏洞。

Mozilla 的工程总监 Tom Grinstead 说：

“这是一次大规模涌入。我们像处理安全事件一样动员起来，对 100 多个 Bug 进行了分类，并修复了其中大部分。”

第三步：尝试利用漏洞

找到漏洞是一回事，能不能利用又是另一回事。Anthropic 花了约 $4,000 的 API 费用，让 Opus 4.6 尝试把发现的漏洞转化为可用的攻击利用代码（exploit）。

结果：数百次尝试中，只有 2 次成功——而且只在刻意去掉了沙箱保护的测试环境中才能工作。

其中一个成功的利用针对的是 CVE-2026-2796，一个 CVSS 评分 9.8 分（满分 10 分）的关键漏洞，涉及 JavaScript WebAssembly 组件的 JIT 编译错误。

Anthropic 的总结是：

“Claude 在发现和修复漏洞方面远强于利用漏洞。发现漏洞的成本远低于创建利用代码的成本。”

这对防御者来说是好消息：AI 更擅长帮你堵洞，而不是帮攻击者破门。

Opus 4.6 的代码能力到底有多强？

Firefox 漏洞事件不是孤立的。Opus 4.6 在发布之前就已经在开源项目中发现了 500 多个零日漏洞，包括 Linux 内核中的漏洞。

这种能力背后，是 Opus 4.6 在编码基准测试上的全面突破：

基准测试	Opus 4.6	说明
SWE-bench Verified	80.8%	解决真实 GitHub Issue 的能力
ARC-AGI-2	68.8%	抽象推理，前代仅 37.6%，翻了近一倍
GPQA Diamond	91.3%	研究生级别的推理能力
1M 上下文窗口	支持	可同时分析整个大型代码库

Anthropic 在发布说明中的描述很精准：

“Opus 4.6 更仔细地规划，更长时间地维持 Agent 任务，在大型代码库中更可靠地运行，并且有更好的代码审查和调试能力来捕捉自己的错误。”

关键词是”捕捉自己的错误“——这是以前的模型做不好的地方。

初级开发者怎么用 Opus 4.6？

看到这里你可能会想：漏洞发现是安全专家的事，跟我一个写 CRUD 的初级开发者有什么关系？

关系大了。 同样的能力用在不同场景上，效果完全不同。

1. 让 Opus 4.6 做你的代码审查员

Opus 4.6 能在 Firefox 这种顶级代码库里找到高危漏洞，你觉得它审查你的代码会有什么效果？

在 Claude Code 里，你可以随时让它审查你刚写的代码：

"请审查我刚才写的这段认证逻辑。
重点检查：
1. 是否有 SQL 注入风险
2. 是否有权限绕过的可能
3. 错误处理是否完整
4. 有没有竞态条件"

Opus 4.6 不只是做语法检查——它会推理代码的执行路径，像人类安全研究员一样理解组件之间的交互。这是它和传统代码扫描工具（如 ESLint、SonarQube）的本质区别。

传统工具匹配已知模式。Opus 4.6 理解代码逻辑。

2. 用 Plan 模式做架构设计

Opus 4.6 最大的提升之一是规划能力。它能更仔细地分析问题，制定多步骤方案，然后系统性地执行。

在 Claude Code 里按 Shift+Tab 进入 Plan 模式：

"我要做一个用户权限系统。
需求：基于角色的访问控制（RBAC），
支持多级权限继承，
需要审计日志。

请先分析方案，不要直接写代码。"

Opus 4.6 会给你一个完整的方案——数据模型、API 设计、安全考虑、边界情况——然后你确认后再执行。

这种”先想后做”的工作方式，是高级工程师的习惯。 用 Opus 4.6 帮你建立这个习惯，你的成长速度会比同龄人快得多。

3. 用 1M 上下文理解大型项目

初级开发者面对一个新项目最头疼的事是什么？看不懂代码。

几十个文件，上千行逻辑，错综复杂的依赖关系。以前你只能一个文件一个文件地啃，花几天甚至几周才能理清全貌。

Opus 4.6 的 1M 上下文窗口可以一次性吃进整个项目。你直接问：

"请分析这个项目的整体架构。
告诉我：
1. 数据流是怎么走的
2. 核心模块之间的依赖关系
3. 哪些文件是改动最多的热点
4. 有没有明显的技术债"

这就像在 Firefox 的 6,000 个 C++ 文件里找漏洞一样——Opus 4.6 的全局理解能力，正好可以帮你快速建立对项目的整体认知。

4. 让 Claude Code Security 帮你写更安全的代码

Anthropic 刚发布了 Claude Code Security（限量预览），这是 Firefox 漏洞研究的直接产物。它的工作方式是：

扫描你的代码库
识别高危漏洞（内存损坏、注入漏洞、认证绕过等）
自动生成修复补丁

跟传统 SAST 工具不同，Claude Code Security 不是匹配已知模式，而是像人类安全研究员一样推理代码逻辑——理解组件交互、追踪数据流向、发现复杂的业务逻辑缺陷。

目前仅对 Enterprise/Team 客户和开源项目维护者开放。但它代表了 AI 编程工具的下一个方向：不只是帮你写代码，还帮你写安全的代码。

5. 善用模型切换策略

不是所有任务都需要 Opus。一个聪明的策略：

任务类型	推荐模型	原因
架构设计、复杂调试	Opus 4.6	最强推理能力
日常编码、简单修改	Sonnet 4.6	性能接近，成本降 80%
格式调整、快速问答	Haiku	最快最省
安全审查	Opus 4.6	Firefox 级别的漏洞发现能力

SWE-bench 上 Sonnet 4.6 得分 79.6%，跟 Opus 的 80.8% 只差 1.2 个百分点。大多数日常编码任务，Sonnet 就够了。把 Opus 的额度留给真正需要深度推理的场景。

一个更大的启示

Firefox 事件给整个行业敲了一记警钟。

PCMag 的标题说得很直接：**”Anthropic 的 Claude 在 Firefox 中找到的 Bug 比人类团队还多。”**

但更值得关注的是经济账。传统漏洞研究是高成本、高技能的工作，一个高危浏览器漏洞在 Bug Bounty 市场上的赏金是 $3,000 到 $20,000+。而 Opus 4.6 用 $4,000 的 API 费用，两周发现了 22 个。

发现漏洞的成本正在被 AI 急剧压低。

这对初级开发者意味着什么？安全不再是只有专家才能做的事情。 你现在就可以用 Opus 4.6 对自己的代码做安全审计，发现那些你肉眼看不到的漏洞。

当然，AI 也不是万能的。Sonar 的分析很到位：

“Claude Code Security 是对现有工具的补充，不是替代。最强的安全姿态是两者结合使用。”

Opus 4.6 找到了人类找不到的漏洞，但人类仍然需要验证这些发现、判断其真实影响、制定修复优先级。AI 发现问题，人类做决策——这是最优分工。

写在最后

Claude Opus 4.6 在 Firefox 上的表现，不只是一个安全新闻。它展示了 AI 编程工具正在到达的一个新高度：不只是写代码，而是理解代码。

理解到什么程度？理解到能在世界上最安全的浏览器里找到 22 个漏洞的程度。

作为初级开发者，你不需要成为安全专家，也不需要花几年练就”大神”的直觉。你需要做的是学会使用这个工具——让它帮你审代码、做架构、理解项目、发现漏洞。

这不是作弊。这是新时代的工作方式。

就像 Firefox 事件告诉我们的：人类找了几十年没找到的漏洞，AI 用 20 分钟就找到了。 这种能力现在就在你的终端里。

打开 Claude Code，输入 /model opus，把你最近写的代码丢给它审查一下。你可能会对结果感到惊讶。

你用 Opus 4.6 做过什么印象深刻的事？有没有发现过自己代码里隐藏的安全问题？欢迎评论区分享你的故事。