连查出 Firefox 22 个漏洞!初级开发如何用 Claude Opus 4.6 写出大神级代码?

两周。22 个安全漏洞。14 个高危。
这不是某个顶级安全团队的年度报告,而是 Claude Opus 4.6 一个 AI 模型在 Firefox 代码库里的成绩单。
2026 年 2 月,Anthropic 与 Mozilla 合作,把 Opus 4.6 指向了 Firefox 的代码库。这是全世界被审计最多的开源项目之一——几十年来无数安全研究员反复翻过,持续做模糊测试,由顶尖工程师维护。
结果?Opus 4.6 扫描了近 6,000 个 C++ 文件,向 Mozilla 提交了 112 份漏洞报告,其中 22 个被确认为安全漏洞(CVE)。14 个高危漏洞,占 2025 年 Firefox 全部高危漏洞的近五分之一。
更夸张的是,它找到第一个漏洞只用了 20 分钟。
这件事让我想了很久。如果一个 AI 模型能在最安全的浏览器里找到这么多漏洞,那它用来帮你写代码、审代码的时候,到底能做到什么程度?
它到底是怎么找到这些漏洞的?
Anthropic 的前沿红队负责人 Logan Graham 解释了他们为什么选 Firefox 做测试:
“我们选 Firefox 是因为它是世界上被测试最充分、最安全的开源项目之一。如果 Claude 能在这里发现未知的高危 Bug,那说明了这项能力正在走向何方。”
第一步:复现历史漏洞
研究团队先用 Opus 4.6 去找旧版 Firefox 中的已知漏洞(历史 CVE)。他们惊讶地发现,Opus 4.6 能复现其中很高比例的漏洞——而每一个漏洞都是人类安全研究员花了大量精力才发现的。
这一步的意义是什么?验证模型确实具备安全审计的能力,而不是碰运气。
第二步:扫描当前代码库
验证能力后,团队把 Opus 4.6 对准了 Firefox 的当前版本。从 JavaScript 引擎开始——这是最关键的攻击面,因为它负责处理来自互联网的不受信任的代码。
20 分钟后,Opus 4.6 报告了第一个发现:一个 Use-After-Free(释放后使用)漏洞。
这是一种内存损坏漏洞,攻击者可以利用它覆盖数据、注入恶意内容。这种漏洞在浏览器中特别危险,因为用户每天都在浏览器中接触不受信任的网页内容。
Mozilla 确认后,邀请 Anthropic 继续批量提交发现。Mozilla 甚至为此动员了多个工程团队,以”事故响应”的规格来处理这批漏洞。
Mozilla 的工程总监 Tom Grinstead 说:
“这是一次大规模涌入。我们像处理安全事件一样动员起来,对 100 多个 Bug 进行了分类,并修复了其中大部分。”
第三步:尝试利用漏洞
找到漏洞是一回事,能不能利用又是另一回事。Anthropic 花了约 $4,000 的 API 费用,让 Opus 4.6 尝试把发现的漏洞转化为可用的攻击利用代码(exploit)。
结果:数百次尝试中,只有 2 次成功——而且只在刻意去掉了沙箱保护的测试环境中才能工作。
其中一个成功的利用针对的是 CVE-2026-2796,一个 CVSS 评分 9.8 分(满分 10 分)的关键漏洞,涉及 JavaScript WebAssembly 组件的 JIT 编译错误。
Anthropic 的总结是:
“Claude 在发现和修复漏洞方面远强于利用漏洞。发现漏洞的成本远低于创建利用代码的成本。”
这对防御者来说是好消息:AI 更擅长帮你堵洞,而不是帮攻击者破门。
Opus 4.6 的代码能力到底有多强?
Firefox 漏洞事件不是孤立的。Opus 4.6 在发布之前就已经在开源项目中发现了 500 多个零日漏洞,包括 Linux 内核中的漏洞。
这种能力背后,是 Opus 4.6 在编码基准测试上的全面突破:
| 基准测试 | Opus 4.6 | 说明 |
|---|---|---|
| SWE-bench Verified | 80.8% | 解决真实 GitHub Issue 的能力 |
| ARC-AGI-2 | 68.8% | 抽象推理,前代仅 37.6%,翻了近一倍 |
| GPQA Diamond | 91.3% | 研究生级别的推理能力 |
| 1M 上下文窗口 | 支持 | 可同时分析整个大型代码库 |
Anthropic 在发布说明中的描述很精准:
“Opus 4.6 更仔细地规划,更长时间地维持 Agent 任务,在大型代码库中更可靠地运行,并且有更好的代码审查和调试能力来捕捉自己的错误。”
关键词是”捕捉自己的错误“——这是以前的模型做不好的地方。
初级开发者怎么用 Opus 4.6?
看到这里你可能会想:漏洞发现是安全专家的事,跟我一个写 CRUD 的初级开发者有什么关系?
关系大了。 同样的能力用在不同场景上,效果完全不同。
1. 让 Opus 4.6 做你的代码审查员
Opus 4.6 能在 Firefox 这种顶级代码库里找到高危漏洞,你觉得它审查你的代码会有什么效果?
在 Claude Code 里,你可以随时让它审查你刚写的代码:
1 | "请审查我刚才写的这段认证逻辑。 |
Opus 4.6 不只是做语法检查——它会推理代码的执行路径,像人类安全研究员一样理解组件之间的交互。这是它和传统代码扫描工具(如 ESLint、SonarQube)的本质区别。
传统工具匹配已知模式。Opus 4.6 理解代码逻辑。
2. 用 Plan 模式做架构设计
Opus 4.6 最大的提升之一是规划能力。它能更仔细地分析问题,制定多步骤方案,然后系统性地执行。
在 Claude Code 里按 Shift+Tab 进入 Plan 模式:
1 | "我要做一个用户权限系统。 |
Opus 4.6 会给你一个完整的方案——数据模型、API 设计、安全考虑、边界情况——然后你确认后再执行。
这种”先想后做”的工作方式,是高级工程师的习惯。 用 Opus 4.6 帮你建立这个习惯,你的成长速度会比同龄人快得多。
3. 用 1M 上下文理解大型项目
初级开发者面对一个新项目最头疼的事是什么?看不懂代码。
几十个文件,上千行逻辑,错综复杂的依赖关系。以前你只能一个文件一个文件地啃,花几天甚至几周才能理清全貌。
Opus 4.6 的 1M 上下文窗口可以一次性吃进整个项目。你直接问:
1 | "请分析这个项目的整体架构。 |
这就像在 Firefox 的 6,000 个 C++ 文件里找漏洞一样——Opus 4.6 的全局理解能力,正好可以帮你快速建立对项目的整体认知。
4. 让 Claude Code Security 帮你写更安全的代码
Anthropic 刚发布了 Claude Code Security(限量预览),这是 Firefox 漏洞研究的直接产物。它的工作方式是:
- 扫描你的代码库
- 识别高危漏洞(内存损坏、注入漏洞、认证绕过等)
- 自动生成修复补丁
跟传统 SAST 工具不同,Claude Code Security 不是匹配已知模式,而是像人类安全研究员一样推理代码逻辑——理解组件交互、追踪数据流向、发现复杂的业务逻辑缺陷。
目前仅对 Enterprise/Team 客户和开源项目维护者开放。但它代表了 AI 编程工具的下一个方向:不只是帮你写代码,还帮你写安全的代码。
5. 善用模型切换策略
不是所有任务都需要 Opus。一个聪明的策略:
| 任务类型 | 推荐模型 | 原因 |
|---|---|---|
| 架构设计、复杂调试 | Opus 4.6 | 最强推理能力 |
| 日常编码、简单修改 | Sonnet 4.6 | 性能接近,成本降 80% |
| 格式调整、快速问答 | Haiku | 最快最省 |
| 安全审查 | Opus 4.6 | Firefox 级别的漏洞发现能力 |
SWE-bench 上 Sonnet 4.6 得分 79.6%,跟 Opus 的 80.8% 只差 1.2 个百分点。大多数日常编码任务,Sonnet 就够了。把 Opus 的额度留给真正需要深度推理的场景。
一个更大的启示
Firefox 事件给整个行业敲了一记警钟。
PCMag 的标题说得很直接:**”Anthropic 的 Claude 在 Firefox 中找到的 Bug 比人类团队还多。”**
但更值得关注的是经济账。传统漏洞研究是高成本、高技能的工作,一个高危浏览器漏洞在 Bug Bounty 市场上的赏金是 $3,000 到 $20,000+。而 Opus 4.6 用 $4,000 的 API 费用,两周发现了 22 个。
发现漏洞的成本正在被 AI 急剧压低。
这对初级开发者意味着什么?安全不再是只有专家才能做的事情。 你现在就可以用 Opus 4.6 对自己的代码做安全审计,发现那些你肉眼看不到的漏洞。
当然,AI 也不是万能的。Sonar 的分析很到位:
“Claude Code Security 是对现有工具的补充,不是替代。最强的安全姿态是两者结合使用。”
Opus 4.6 找到了人类找不到的漏洞,但人类仍然需要验证这些发现、判断其真实影响、制定修复优先级。AI 发现问题,人类做决策——这是最优分工。
写在最后
Claude Opus 4.6 在 Firefox 上的表现,不只是一个安全新闻。它展示了 AI 编程工具正在到达的一个新高度:不只是写代码,而是理解代码。
理解到什么程度?理解到能在世界上最安全的浏览器里找到 22 个漏洞的程度。
作为初级开发者,你不需要成为安全专家,也不需要花几年练就”大神”的直觉。你需要做的是学会使用这个工具——让它帮你审代码、做架构、理解项目、发现漏洞。
这不是作弊。这是新时代的工作方式。
就像 Firefox 事件告诉我们的:人类找了几十年没找到的漏洞,AI 用 20 分钟就找到了。 这种能力现在就在你的终端里。
打开 Claude Code,输入 /model opus,把你最近写的代码丢给它审查一下。你可能会对结果感到惊讶。
你用 Opus 4.6 做过什么印象深刻的事?有没有发现过自己代码里隐藏的安全问题?欢迎评论区分享你的故事。