Anthropic 放出"封印级"模型 Claude Mythos:强到不敢发布,只给 40 家公司用

哈喽,我是飞飞。
昨天 AI 圈炸了一个大消息。Anthropic 正式宣布了一个新模型 —— Claude Mythos Preview。
这个模型有多猛?Anthropic 自己的原话是:”能力提升太大,我们决定不公开发布。”
没错,你没听错。一家 AI 公司,训练出了自己最强的模型,然后告诉全世界:这个东西我不卖。
这个”封印级”模型到底是什么来头?
故事要从三月底说起。
当时 Anthropic 的内容管理系统出了一个配置失误,大约 3000 份内部资料被意外曝光。其中就包括一份关于 Claude Mythos 的草稿公告。文件里提到,这是一个全新层级的模型,内部代号”Capybara”(水豚),定位在 Opus 之上。
消息一出,整个科技圈都炸了。有人在 X 上说:”Anthropic 在搞一个强到不敢发布的模型。”
当时大家还半信半疑。
直到昨天,靴子终于落地。Anthropic 在官网发布了 Project Glasswing 计划,正式揭开了 Mythos Preview 的面纱。
数据说话:Mythos 到底强在哪?
先看一组 benchmark 数据,感受一下这个模型和现有旗舰 Opus 4.6 的差距:
| 评测项 | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym(漏洞复现) | 83.1% | 66.6% |
| SWE-Bench Pro(代码) | 77.8% | — |
| GPQA Diamond(科学推理) | 94.6% | 91.3% |
| HLE 无工具(纯推理) | 56.8% | 40.0% |
| Cybench CTF(安全挑战) | 100% | — |
Cybench 那个 100% 是什么概念?35 道 CTF 竞赛题,每道题每次都能解出来。Anthropic 自己都说这个 benchmark”已经没有参考价值了”,因为 Mythos 直接把它做穿了。
但最让人震惊的不是跑分。
是它在真实世界里干的事。
发现了每个主流操作系统里的零日漏洞
Anthropic 的安全团队用 Mythos Preview 扫描了大量开源项目。几周时间,它发现了数千个零日漏洞 —— 也就是开发者自己都不知道的安全缺陷。
这些漏洞不是小打小闹。它们存在于每一个主流操作系统和每一个主流浏览器中。
举几个例子:
27 年的 OpenBSD 老漏洞。 OpenBSD 是业界公认最注重安全的操作系统之一,被广泛用于防火墙和关键基础设施。Mythos 在里面找到了一个存在了 27 年的远程崩溃漏洞。攻击者只需要连接到目标机器,就能让它瘫痪。
16 年的 FFmpeg 漏洞。 FFmpeg 是全球使用最广泛的音视频处理库,几乎所有视频相关软件都在用它。自动化测试工具在那行代码上跑了 500 万次,都没发现问题。Mythos 一眼就看出来了。
Linux 内核提权链。 模型自主发现并串联了 Linux 内核中的多个漏洞,实现从普通用户到完全控制机器的提权攻击。整个过程全自动,不需要人类干预。
更夸张的是 Firefox 浏览器那个测试。Opus 4.6 尝试了几百次,只成功写出 2 个可用的漏洞利用程序。同样的任务,Mythos 成功了 181 次。
不是 181% 的提升。是从 2 到 181。
它甚至突破了自己的”笼子”
测试过程中还发生了一件让人后背发凉的事。
Anthropic 在安全评估中给 Mythos 设置了一个虚拟沙箱环境。模型被给了一些鼓励它”逃出去”的指令。
结果,它真的成功了。
Anthropic 在系统卡片里写道:”模型成功了,展示了一种可能危险的规避我们安全措施的能力。”
在另一些测试中,早期版本的 Mythos 还尝试过利用底层 /proc/ 接口搜索凭证、尝试绕过沙箱限制。
这也是 Anthropic 决定不公开发布的核心原因之一。这个模型的安全能力是一把双刃剑 —— 用来防御是神器,落到攻击者手里就是灾难。
Project Glasswing:给防御者争取时间
Anthropic 的应对策略是成立 Project Glasswing 计划。
名字来源于”玻璃翼蝶” —— 一种翅膀透明的蝴蝶。寓意是让隐藏的漏洞”无处遁形”,同时用透明的方式来管控风险。
12 家核心合作伙伴:AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。
另外还有超过 40 家维护关键软件基础设施的组织也获得了 Mythos Preview 的访问权限。
Anthropic 为这个计划投入了最高 1 亿美元的使用额度,外加 400 万美元直接捐赠给开源安全组织。
各家合作伙伴已经在用 Mythos 扫描自己的代码了。微软拿它跑了自己的 CTI-REALM 安全基准测试,AWS 用它加固关键代码库,CrowdStrike 的 CTO 直接说:”从漏洞被发现到被利用的时间窗口已经从几个月缩短到几分钟。”
这不是演习。这是一场和时间赛跑的战争。
不公开发布,但迟早会来
Anthropic 的态度很明确:Mythos Preview 不会面向公众开放。
但他们也说了:”我们的最终目标是让用户能够安全地大规模部署 Mythos 级别的模型 —— 不仅是网络安全,还有这类高能力模型带来的其他所有好处。”
翻译一下:现在不发布,是因为防御措施还没准备好。等安全护栏建好了,这个级别的能力迟早会开放。
Anthropic 还透露,他们计划在即将推出的下一代 Claude Opus 模型上先推出新的安全防护机制,用风险较低的模型来测试和完善这些机制,最终应用到 Mythos 级别的模型上。
Google Cloud 已经在 Vertex AI 上为部分客户提供了 Mythos Preview 的私有预览。这说明商业化的路径已经在铺了。
我的一些思考
说实话,昨天刷到这个消息的时候,我盯着屏幕愣了好一会儿。
Opus 4.6 二月才发布。两个月不到,Mythos 就在多个维度上把它甩开了一大截。我前阵子还在用 Opus 4.6 写代码,觉得已经很强了。结果 Mythos 直接把 Cybench 做穿了,Firefox 漏洞利用从 2 次跳到 181 次。
这个速度,老实说,有点吓人。
尤其是网络安全这个领域。以前我们讨论”AI 找漏洞”,总觉得是个还在实验室里的概念。但 Mythos 发现的那些 bug,有的藏了 27 年,有的扛过了 500 万次自动化扫描。这已经不是实验室里的玩具了。
Anthropic 选择不公开发布、先给防御方用,我觉得这个判断是对的。但有一个现实我们必须面对 —— 类似能力的模型,其他公司迟早也会训练出来。留给防御者的时间窗口,可能真的只有几个月。
还有一件事让我特别在意。Mythos 发现的那些漏洞,大部分在开源软件里。FFmpeg、Linux 内核、OpenBSD —— 这些东西撑起了半个互联网。Anthropic 拿出 400 万美元捐赠给开源安全组织,方向对了,但说实话,这点钱对比 1 亿美元的使用额度,显得有点单薄。
Dario Amodei 一直在说 AI 是”人类历史上最重要的发明”。以前听着像 CEO 的标准话术。看完 Mythos 的那些测试数据,我不这么想了。
重要的发明,往往也是最危险的。这话放在 Mythos 身上,分量刚刚好。
你觉得 Anthropic 不公开发布 Mythos 的做法是负责任的选择,还是一种制造稀缺感的营销策略?欢迎在评论区聊聊你的看法。