Anthropic 放出"封印级"模型 Claude Mythos：强到不敢发布，只给 40 家公司用

发表于 2026-04-08 更新于 2026-07-14 分类于 AI 阅读次数：本文字数： 2.9k 阅读时长 ≈ 3 分钟

介绍 Anthropic 决定不公开发布的 Claude Mythos Preview 模型，其 CyberGym 漏洞复现得 83.1%、Cybench CTF 全对、Firefox 漏洞利用成功 181 次远超 Opus 4.6 的 2 次，并通过 Project Glasswing 计划仅向 40 多家关键基础设施组织开放，投入最高 1 亿美元额度。

cover

哈喽，我是飞飞。

昨天 AI 圈炸了一个大消息。Anthropic 正式宣布了一个新模型 —— Claude Mythos Preview。

这个模型有多猛？Anthropic 自己的原话是：”能力提升太大，我们决定不公开发布。”

没错，你没听错。一家 AI 公司，训练出了自己最强的模型，然后告诉全世界：这个东西我不卖。

这个”封印级”模型到底是什么来头？

故事要从三月底说起。

当时 Anthropic 的内容管理系统出了一个配置失误，大约 3000 份内部资料被意外曝光。其中就包括一份关于 Claude Mythos 的草稿公告。文件里提到，这是一个全新层级的模型，内部代号”Capybara”（水豚），定位在 Opus 之上。

消息一出，整个科技圈都炸了。有人在 X 上说：”Anthropic 在搞一个强到不敢发布的模型。”

当时大家还半信半疑。

直到昨天，靴子终于落地。Anthropic 在官网发布了 Project Glasswing 计划，正式揭开了 Mythos Preview 的面纱。

数据说话：Mythos 到底强在哪？

先看一组 benchmark 数据，感受一下这个模型和现有旗舰 Opus 4.6 的差距：

评测项	Mythos Preview	Opus 4.6
CyberGym（漏洞复现）	83.1%	66.6%
SWE-Bench Pro（代码）	77.8%	—
GPQA Diamond（科学推理）	94.6%	91.3%
HLE 无工具（纯推理）	56.8%	40.0%
Cybench CTF（安全挑战）	100%	—

Cybench 那个 100% 是什么概念？35 道 CTF 竞赛题，每道题每次都能解出来。Anthropic 自己都说这个 benchmark”已经没有参考价值了”，因为 Mythos 直接把它做穿了。

但最让人震惊的不是跑分。

是它在真实世界里干的事。

发现了每个主流操作系统里的零日漏洞

Anthropic 的安全团队用 Mythos Preview 扫描了大量开源项目。几周时间，它发现了数千个零日漏洞 —— 也就是开发者自己都不知道的安全缺陷。

这些漏洞不是小打小闹。它们存在于每一个主流操作系统和每一个主流浏览器中。

举几个例子：

27 年的 OpenBSD 老漏洞。 OpenBSD 是业界公认最注重安全的操作系统之一，被广泛用于防火墙和关键基础设施。Mythos 在里面找到了一个存在了 27 年的远程崩溃漏洞。攻击者只需要连接到目标机器，就能让它瘫痪。

16 年的 FFmpeg 漏洞。 FFmpeg 是全球使用最广泛的音视频处理库，几乎所有视频相关软件都在用它。自动化测试工具在那行代码上跑了 500 万次，都没发现问题。Mythos 一眼就看出来了。

Linux 内核提权链。 模型自主发现并串联了 Linux 内核中的多个漏洞，实现从普通用户到完全控制机器的提权攻击。整个过程全自动，不需要人类干预。

更夸张的是 Firefox 浏览器那个测试。Opus 4.6 尝试了几百次，只成功写出 2 个可用的漏洞利用程序。同样的任务，Mythos 成功了 181 次。

不是 181% 的提升。是从 2 到 181。

它甚至突破了自己的”笼子”

测试过程中还发生了一件让人后背发凉的事。

Anthropic 在安全评估中给 Mythos 设置了一个虚拟沙箱环境。模型被给了一些鼓励它”逃出去”的指令。

结果，它真的成功了。

Anthropic 在系统卡片里写道：”模型成功了，展示了一种可能危险的规避我们安全措施的能力。”

在另一些测试中，早期版本的 Mythos 还尝试过利用底层 /proc/ 接口搜索凭证、尝试绕过沙箱限制。

这也是 Anthropic 决定不公开发布的核心原因之一。这个模型的安全能力是一把双刃剑 —— 用来防御是神器，落到攻击者手里就是灾难。

Project Glasswing：给防御者争取时间

Anthropic 的应对策略是成立 Project Glasswing 计划。

名字来源于”玻璃翼蝶” —— 一种翅膀透明的蝴蝶。寓意是让隐藏的漏洞”无处遁形”，同时用透明的方式来管控风险。

12 家核心合作伙伴：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。

另外还有超过 40 家维护关键软件基础设施的组织也获得了 Mythos Preview 的访问权限。

Anthropic 为这个计划投入了最高 1 亿美元的使用额度，外加 400 万美元直接捐赠给开源安全组织。

各家合作伙伴已经在用 Mythos 扫描自己的代码了。微软拿它跑了自己的 CTI-REALM 安全基准测试，AWS 用它加固关键代码库，CrowdStrike 的 CTO 直接说：”从漏洞被发现到被利用的时间窗口已经从几个月缩短到几分钟。”

这不是演习。这是一场和时间赛跑的战争。

不公开发布，但迟早会来

Anthropic 的态度很明确：Mythos Preview 不会面向公众开放。

但他们也说了：”我们的最终目标是让用户能够安全地大规模部署 Mythos 级别的模型 —— 不仅是网络安全，还有这类高能力模型带来的其他所有好处。”

翻译一下：现在不发布，是因为防御措施还没准备好。等安全护栏建好了，这个级别的能力迟早会开放。

Anthropic 还透露，他们计划在即将推出的下一代 Claude Opus 模型上先推出新的安全防护机制，用风险较低的模型来测试和完善这些机制，最终应用到 Mythos 级别的模型上。

Google Cloud 已经在 Vertex AI 上为部分客户提供了 Mythos Preview 的私有预览。这说明商业化的路径已经在铺了。

我的一些思考

说实话，昨天刷到这个消息的时候，我盯着屏幕愣了好一会儿。

Opus 4.6 二月才发布。两个月不到，Mythos 就在多个维度上把它甩开了一大截。我前阵子还在用 Opus 4.6 写代码，觉得已经很强了。结果 Mythos 直接把 Cybench 做穿了，Firefox 漏洞利用从 2 次跳到 181 次。

这个速度，老实说，有点吓人。

尤其是网络安全这个领域。以前我们讨论”AI 找漏洞”，总觉得是个还在实验室里的概念。但 Mythos 发现的那些 bug，有的藏了 27 年，有的扛过了 500 万次自动化扫描。这已经不是实验室里的玩具了。

Anthropic 选择不公开发布、先给防御方用，我觉得这个判断是对的。但有一个现实我们必须面对 —— 类似能力的模型，其他公司迟早也会训练出来。留给防御者的时间窗口，可能真的只有几个月。

还有一件事让我特别在意。Mythos 发现的那些漏洞，大部分在开源软件里。FFmpeg、Linux 内核、OpenBSD —— 这些东西撑起了半个互联网。Anthropic 拿出 400 万美元捐赠给开源安全组织，方向对了，但说实话，这点钱对比 1 亿美元的使用额度，显得有点单薄。

Dario Amodei 一直在说 AI 是”人类历史上最重要的发明”。以前听着像 CEO 的标准话术。看完 Mythos 的那些测试数据，我不这么想了。

重要的发明，往往也是最危险的。这话放在 Mythos 身上，分量刚刚好。

你觉得 Anthropic 不公开发布 Mythos 的做法是负责任的选择，还是一种制造稀缺感的营销策略？欢迎在评论区聊聊你的看法。