MiniMax M3 跑分逼到 Opus 门口,但我这个天天用 Claude Code 的人没急着切

哈喽,我是飞飞。
昨天我刷到一条消息:国产的 MiniMax M3 开源模型,跑分超过 GPT-5.5 和 Gemini 3.1 Pro,逼近 Claude Opus。
我第一反应是:又来一个挑榜的。
这两年国产模型隔三差五冒一个「屠榜」「超越 GPT」的标题,看多了我基本条件反射划走。
但这条我多看了两眼。因为它写的榜是 SWE-Bench Pro,不是我熟的那些老榜。我把它的数字一条条扒完,才发现没那么简单。
这次我是真改了主意。它确实摸到了一个我没想到国产这么快能摸到的点位,可又远没到能让我把主力换过去。这中间的分寸,值得跟你掰扯清楚。
先把那个 59 分说清楚,它考的是地狱级的卷子
官方给的核心数字是:SWE-Bench Pro 拿到 59.0%。
你可能对这个数字没感觉,我先说人话解释一下这张卷子有多难。
SWE-Bench Pro 是 Scale AI 出的编程基准,从 41 个真实开源仓库里抠出 1865 道题,覆盖 Python、Go、TypeScript、JavaScript。平均每道题要改 107 行代码、动 4.1 个文件,而且专门防数据污染,不让模型靠背答案过关。
对比一下你就知道狠在哪。老一点的 SWE-Bench Verified 只考 Python,中位数一道题才改 4 行,基本是单文件小修小补。
难度差多少?这么说吧,模型在 Verified 上普遍能考 70 分以上,可 Pro 刚出来那会儿,GPT-5 和 Opus 4.1 也就考 23 分左右。
所以 M3 在 Pro 上拿 59 分,含金量大概相当于在那些水榜上飙到 90 多。这个分数官方说超过了 GPT-5.5 和 Gemini 3.1 Pro,我信这个量级是真能写代码的,不是参数表上好看而已。
但它对标的是上一代,跟我天天用的 Opus 4.8 还差着一截
热闹归热闹,有个细节得拎出来讲。
官方原话是「逼近 Opus 4.7」。注意,是 4.7。
可上周 Anthropic 刚发了 Opus 4.8,同一个 SWE-Bench Pro,4.8 考了 69.2 分。M3 的 59 分,跟最新款比,还差着整整十分。
我得说句公道话,拿上一代对标不算耍赖,模型发布都是按自己研发周期来的。但作为读者你心里要有数:它逼到的是 Opus 的上一代门口,不是最新那扇门。
还有一层我作为重度用户特别在意的:这些分是 MiniMax 自己在自家机器上、套着 Claude Code 的脚手架跑出来的,取了四次平均。这不等于作弊,但它是官方自报,不是第三方掐着秒表独立复现。
跑分高和日常顺手,是两件事,这个落差我吃过亏。之前有国产模型冲榜,我也兴冲冲切过去试。榜上是真风光,可真接进我自己的活里就开始别扭:让它按我项目的规范写注释,它阳奉阴违;挂个 agent 跑稍微长一点的任务,跑到一半上下文乱了,工具调用的格式开始飘。来回折腾两天,我又灰溜溜切回了 Claude Code。
那两天的体感我记得很清楚:它代码写得不差,差在接不住我这套已经磨顺的工作流。所以现在看到任何模型的跑分,我都先留个心眼。分是分,能不能进我的生产环境,是另一码事。
真正让我坐起来的,是后面那张价格单
如果只是分数,我顶多点个收藏。让我坐直身子的是它的成本。
第三方算下来,M3 的价格大概只有 GPT-5.5 的二十分之一到十分之一,比 Opus 4.8 便宜大概八倍。
这个差距对我意味着什么,得说说我每天的真实状态。我重度用 Claude Code 配 Opus,经常一开就是好几个 agent 挂在后台跑。开着 Opus 挂一上午,看着用量面板上的数字噌噌往上蹦,那个钱我心里是有数的,肉疼。
肉疼到什么程度?有阵子我养成了个习惯,让 agent 干活前先掂量一下这活值不值得用 Opus,一些跑脚本、改格式的杂活,我会手动降到便宜模型去做,就为了把额度省给真正难啃的部分。说白了,成本这根弦,我一直绷着。
M3 能做到便宜,靠的是一套叫 MSA 的稀疏注意力架构。说人话就是,它不让模型读每个字都跟全文死磕,只盯着相关的部分看。官方数据是,100 万 token 的超长上下文下,每个 token 的计算成本只有上一代的二十分之一,预填充快九倍多,解码快十五倍多。
把这俩放一块看就有意思了:又便宜,又能一口吞下 100 万 token。这意味着你可以把整个 codebase 塞进去让它通读,再让它动手改。
我现在让 Opus 读大项目还得精打细算地喂上下文,哪几个文件相关、要不要把依赖也带上,得我自己先想一遍再丢给它,怕的就是塞太多既烧钱又分散它注意力。要是有个模型既能整库通读、不用我伺候着喂料,价格还只要十分之一,这笔账确实得重新算。
「开源」这俩字,现在得先打个引号
不过别急着去下载。
M3 号称是「首个把前沿编码、100 万上下文、原生多模态合到一个模型」的开源模型。可发布当天,权重压根没放出来。
官方说,未来十天内才会公开模型权重和技术报告。也就是说此刻你想把它弄到自己服务器上本地跑,做不到,现在只能走它的 API 或者官方的 MiniMax Code、Token Plan。
我把这点单独拎出来,是因为「开源」这两个字太容易让人误会。很多人一看标题就以为能马上下回来白嫖,实际现在能用的,还是个收费的闭源 API。等十天后权重真放了,能不能顺利在消费级显卡上跑起来,又是另一个问号。
把它放进这一年国产追海外的那条线里
单看 M3 是一个产品,把它放进时间线里看,才看得出势头。
从去年的 DeepSeek R1,到 Kimi K2,再到现在的 M3,国产开源模型一个接一个往前拱。a16z 有个合伙人说,现在用开源模型的创业公司里,八成在用中国的模型。
我之前写过 Qwen3.7-Max 冲到 Code Arena 全球第二,也写过智谱把推理速度卷到每秒 400 个 token,这次的 M3 就是同一条上升曲线上又靠前的一个点。
国产的打法其实很清楚。它不跟你在每一个榜上死磕海外最新旗舰,而是卡住「开源加低推理成本」这个位置。这个位置,恰恰是 GPT、Gemini、Claude 这些闭源旗舰因为商业模式够不到的地方。你旗舰再强,我便宜十倍还开源,自有一批人用脚投票。
那我到底会不会切过去
说了这么多,落到我自己身上,结论很简单:暂时不切。
我的主力还是 Claude Code 配 Opus。原因就摆在上面,最新旗舰确实还领先一截,权重还没真放出来,跑分还得我自己验过才算数。
但我会认真测它。怎么测?不看榜,看我自己的项目。把我手头那个攒了半年、一直没敢大动的跨库重构丢给它,看它在我的真实代码里到底站不站得住。
这才是检验一个模型的唯一办法。榜上六十分是别人的考场,我项目里好不好用才是我的考场。
要是它在我自己的活里真扛住了,那便宜十倍加整库通读这笔账,我会毫不犹豫重算一遍。在那之前,我对它的态度是认真看,但别急着信。
写在最后
回到开头那句「又来一个挑榜的」。
扒完一圈我得承认,这次我划走划得太快了。国产开源这回是真摸到了海外旗舰上一代的门口,还顺手把价格砸穿了,这事值得每个认真写代码的人留个心眼。
但摸到门口不等于进门。前头那扇最新旗舰的门还关着,权重也还没真落地,我得自己验过才敢下结论。该清醒的地方,一样得清醒。
这条国产模型追海外的线,我会接着盯,等 M3 权重真放出来、我拿真实项目跑过一轮,再回来跟你交底。
最后想问问你:你最近有没有把主力模型从海外切到国产过?是什么让你下决心切,或者又是什么让你切回去了?评论区聊聊,给还在观望的人提个醒。