MiniMax M3 跑分逼到 Opus 门口，但我这个天天用 Claude Code 的人没急着切

发表于 2026-06-02 更新于 2026-07-28 分类于观点阅读次数：本文字数： 2.9k 阅读时长 ≈ 3 分钟

MiniMax M3开源模型在SWE-Bench Pro拿到59.0%，超过GPT-5.5并逼近Opus 4.7，但仍落后Opus 4.8的69.2分，凭MSA稀疏注意力把价格压到约Opus 4.8的八分之一并支持100万token上下文，发布当天权重未放出，作者结论是认真测但暂不切换主力。

cover

哈喽，我是飞飞。

昨天我刷到一条消息：国产的 MiniMax M3 开源模型，跑分超过 GPT-5.5 和 Gemini 3.1 Pro，逼近 Claude Opus。

我第一反应是：又来一个挑榜的。

这两年国产模型隔三差五冒一个「屠榜」「超越 GPT」的标题，看多了我基本条件反射划走。

但这条我多看了两眼。因为它写的榜是 SWE-Bench Pro，不是我熟的那些老榜。我把它的数字一条条扒完，才发现没那么简单。

这次我是真改了主意。它确实摸到了一个我没想到国产这么快能摸到的点位，可又远没到能让我把主力换过去。这中间的分寸，值得跟你掰扯清楚。

先把那个 59 分说清楚，它考的是地狱级的卷子

官方给的核心数字是：SWE-Bench Pro 拿到 59.0%。

你可能对这个数字没感觉，我先说人话解释一下这张卷子有多难。

SWE-Bench Pro 是 Scale AI 出的编程基准，从 41 个真实开源仓库里抠出 1865 道题，覆盖 Python、Go、TypeScript、JavaScript。平均每道题要改 107 行代码、动 4.1 个文件，而且专门防数据污染，不让模型靠背答案过关。

对比一下你就知道狠在哪。老一点的 SWE-Bench Verified 只考 Python，中位数一道题才改 4 行，基本是单文件小修小补。

难度差多少？这么说吧，模型在 Verified 上普遍能考 70 分以上，可 Pro 刚出来那会儿，GPT-5 和 Opus 4.1 也就考 23 分左右。

所以 M3 在 Pro 上拿 59 分，含金量大概相当于在那些水榜上飙到 90 多。这个分数官方说超过了 GPT-5.5 和 Gemini 3.1 Pro，我信这个量级是真能写代码的，不是参数表上好看而已。

但它对标的是上一代，跟我天天用的 Opus 4.8 还差着一截

热闹归热闹，有个细节得拎出来讲。

官方原话是「逼近 Opus 4.7」。注意，是 4.7。

可上周 Anthropic 刚发了 Opus 4.8，同一个 SWE-Bench Pro，4.8 考了 69.2 分。M3 的 59 分，跟最新款比，还差着整整十分。

我得说句公道话，拿上一代对标不算耍赖，模型发布都是按自己研发周期来的。但作为读者你心里要有数：它逼到的是 Opus 的上一代门口，不是最新那扇门。

还有一层我作为重度用户特别在意的：这些分是 MiniMax 自己在自家机器上、套着 Claude Code 的脚手架跑出来的，取了四次平均。这不等于作弊，但它是官方自报，不是第三方掐着秒表独立复现。

跑分高和日常顺手，是两件事，这个落差我吃过亏。之前有国产模型冲榜，我也兴冲冲切过去试。榜上是真风光，可真接进我自己的活里就开始别扭：让它按我项目的规范写注释，它阳奉阴违；挂个 agent 跑稍微长一点的任务，跑到一半上下文乱了，工具调用的格式开始飘。来回折腾两天，我又灰溜溜切回了 Claude Code。

那两天的体感我记得很清楚：它代码写得不差，差在接不住我这套已经磨顺的工作流。所以现在看到任何模型的跑分，我都先留个心眼。分是分，能不能进我的生产环境，是另一码事。

真正让我坐起来的，是后面那张价格单

如果只是分数，我顶多点个收藏。让我坐直身子的是它的成本。

第三方算下来，M3 的价格大概只有 GPT-5.5 的二十分之一到十分之一，比 Opus 4.8 便宜大概八倍。

这个差距对我意味着什么，得说说我每天的真实状态。我重度用 Claude Code 配 Opus，经常一开就是好几个 agent 挂在后台跑。开着 Opus 挂一上午，看着用量面板上的数字噌噌往上蹦，那个钱我心里是有数的，肉疼。

肉疼到什么程度？有阵子我养成了个习惯，让 agent 干活前先掂量一下这活值不值得用 Opus，一些跑脚本、改格式的杂活，我会手动降到便宜模型去做，就为了把额度省给真正难啃的部分。说白了，成本这根弦，我一直绷着。

M3 能做到便宜，靠的是一套叫 MSA 的稀疏注意力架构。说人话就是，它不让模型读每个字都跟全文死磕，只盯着相关的部分看。官方数据是，100 万 token 的超长上下文下，每个 token 的计算成本只有上一代的二十分之一，预填充快九倍多，解码快十五倍多。

把这俩放一块看就有意思了：又便宜，又能一口吞下 100 万 token。这意味着你可以把整个 codebase 塞进去让它通读，再让它动手改。

我现在让 Opus 读大项目还得精打细算地喂上下文，哪几个文件相关、要不要把依赖也带上，得我自己先想一遍再丢给它，怕的就是塞太多既烧钱又分散它注意力。要是有个模型既能整库通读、不用我伺候着喂料，价格还只要十分之一，这笔账确实得重新算。

「开源」这俩字，现在得先打个引号

不过别急着去下载。

M3 号称是「首个把前沿编码、100 万上下文、原生多模态合到一个模型」的开源模型。可发布当天，权重压根没放出来。

官方说，未来十天内才会公开模型权重和技术报告。也就是说此刻你想把它弄到自己服务器上本地跑，做不到，现在只能走它的 API 或者官方的 MiniMax Code、Token Plan。

我把这点单独拎出来，是因为「开源」这两个字太容易让人误会。很多人一看标题就以为能马上下回来白嫖，实际现在能用的，还是个收费的闭源 API。等十天后权重真放了，能不能顺利在消费级显卡上跑起来，又是另一个问号。

把它放进这一年国产追海外的那条线里

单看 M3 是一个产品，把它放进时间线里看，才看得出势头。

从去年的 DeepSeek R1，到 Kimi K2，再到现在的 M3，国产开源模型一个接一个往前拱。a16z 有个合伙人说，现在用开源模型的创业公司里，八成在用中国的模型。

我之前写过 Qwen3.7-Max 冲到 Code Arena 全球第二，也写过智谱把推理速度卷到每秒 400 个 token，这次的 M3 就是同一条上升曲线上又靠前的一个点。

国产的打法其实很清楚。它不跟你在每一个榜上死磕海外最新旗舰，而是卡住「开源加低推理成本」这个位置。这个位置，恰恰是 GPT、Gemini、Claude 这些闭源旗舰因为商业模式够不到的地方。你旗舰再强，我便宜十倍还开源，自有一批人用脚投票。

那我到底会不会切过去

说了这么多，落到我自己身上，结论很简单：暂时不切。

我的主力还是 Claude Code 配 Opus。原因就摆在上面，最新旗舰确实还领先一截，权重还没真放出来，跑分还得我自己验过才算数。

但我会认真测它。怎么测？不看榜，看我自己的项目。把我手头那个攒了半年、一直没敢大动的跨库重构丢给它，看它在我的真实代码里到底站不站得住。

这才是检验一个模型的唯一办法。榜上六十分是别人的考场，我项目里好不好用才是我的考场。

要是它在我自己的活里真扛住了，那便宜十倍加整库通读这笔账，我会毫不犹豫重算一遍。在那之前，我对它的态度是认真看，但别急着信。

写在最后

回到开头那句「又来一个挑榜的」。

扒完一圈我得承认，这次我划走划得太快了。国产开源这回是真摸到了海外旗舰上一代的门口，还顺手把价格砸穿了，这事值得每个认真写代码的人留个心眼。

但摸到门口不等于进门。前头那扇最新旗舰的门还关着，权重也还没真落地，我得自己验过才敢下结论。该清醒的地方，一样得清醒。

这条国产模型追海外的线，我会接着盯，等 M3 权重真放出来、我拿真实项目跑过一轮，再回来跟你交底。

最后想问问你：你最近有没有把主力模型从海外切到国产过？是什么让你下决心切，或者又是什么让你切回去了？评论区聊聊，给还在观望的人提个醒。