PinchBench 86.2%,价格只有Claude的1/20:MiniMax M2.7凭什么成为OpenClaw新宠?

跑 OpenClaw 最大的开销是什么?不是硬件,不是电费,是模型 API 的 Token 费用。
一个活跃的 OpenClaw Agent 24 小时跑下来,上下文能膨胀到 20 万 Token 以上。用 Claude Opus 跑,一天烧掉几十美元是常事。用 Claude Sonnet 省一点,但一个月下来也是一笔不小的开销。
有没有一个模型,能力接近 Claude,但价格只有它的零头?
3 月 18 日,MiniMax 发布了 M2.7。在 Kilo 团队的 PinchBench(OpenClaw Agent 专用基准测试)上拿到了 **86.2%**,距离 Claude Opus 4.6 的 87.4% 只差 1.2 个百分点。价格呢?输入 $0.30/M Token,输出 $1.20/M Token——大约是 Claude 的 1/20。
更有意思的是,这个模型会”自我进化”。它参与了自己的训练过程,自主跑了 100 多轮优化,把内部评测分数提升了 30%。
今天我们来聊聊:M2.7 到底有多强?它真的适合跑 OpenClaw 吗?和 DeepSeek、Qwen 比谁更值?
M2.7 核心数据:全面对标 Opus
先看硬数据。M2.7 在多个关键基准测试上的表现:
| 基准测试 | M2.7 | 参考对比 |
|---|---|---|
| SWE-Pro(多语言编程) | 56.22% | 接近 Opus 最佳水平 |
| SWE Multilingual | 76.5% | 多语言代码能力突出 |
| VIBE-Pro(全栈项目交付) | 55.6% | 接近 Opus 4.6 |
| Terminal Bench 2(系统理解) | 57.0% | 复杂工程系统 |
| PinchBench(OpenClaw Agent) | 86.2% | Opus 4.6 为 87.4% |
| MLE Bench Lite(机器学习竞赛) | 66.6% 奖牌率 | 追平 Gemini 3.1 |
几个关键信息:
第一,编码能力已经到了第一梯队。 SWE-Pro 56.22%,和 GPT-5.3-Codex 持平。SWE Multilingual 76.5%,意味着不只是 Python 写得好,TypeScript、Rust、Go 也都能打。
第二,Agent 能力特别强。 PinchBench 是专门测试 OpenClaw Agent 场景的基准,涵盖了代码生成、工具调用、多轮对话、文件操作等真实任务。86.2% 的得分排在第 5 名,前面是 Opus 4.6(87.4%)、Sonnet 4.6(87.0%)、GLM-5(86.4%)和 GPT-5.4(86.4%)。
第三,从 M2.5 到 M2.7,跳跃巨大。 M2.5 在 PinchBench 上是 82.5%,M2.7 直接跳到 86.2%,3.7 个百分点的提升把 MiniMax 从”中游”拉到了”顶级”。
价格:真正的杀手锏
能力接近顶尖不算新鲜,价格才是 M2.7 真正的杀手锏。
| 模型 | 输入价格(/M Token) | 输出价格(/M Token) |
|---|---|---|
| Claude Opus 4.6 | $15.00 | $75.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.4 | $2.50 | $10.00 |
| MiniMax M2.7 | $0.30 | $1.20 |
| DeepSeek V3.2 | $0.27 | $0.42 |
M2.7 的输入价格是 Opus 的 1/50,输出价格是 Opus 的 1/62。即使和”性价比之王” Sonnet 比,M2.7 也便宜了 10 倍以上。
VentureBeat 的评价是:M2.7 是目前世界上最便宜的前沿级 AI 模型之一。
算一笔账:一个 OpenClaw Agent 7×24 小时运行,每天消耗大约 500 万 Token(保守估计)。用 Claude Opus 一天要花 $100+,用 M2.7 只需要 $3-5。一个月下来,省的钱够买一台 Mac Mini。
自进化:AI 参与训练自己
M2.7 最让人兴奋的不是跑分,是它的训练方式。
传统模型训练:人类工程师写数据 → 训练模型 → 人类评估 → 调参 → 再训练。整个过程依赖大量人力。
M2.7 的方式:模型自己参与优化。MiniMax 让 M2.7 自主构建了强化学习的训练脚手架——它自己搜索最优的采样参数组合(温度、频率惩罚、存在惩罚),自己设计更具体的工作流指南(比如修复 bug 后自动搜索其他文件中的相同模式),自己添加循环检测等优化。
这个过程跑了 100 多轮,最终在内部评测集上实现了 30% 的性能提升。
MiniMax 在官方公告里说:**”我们相信,未来的 AI 自进化将逐步走向完全自主,在无人参与的情况下协调数据构建、模型训练、推理架构、评估等各个阶段。”**
这是一个信号。AI 不只是在帮人写代码,它开始帮自己写训练代码了。
OpenClaw 实测:深度阅读型选手
Kilo 团队对 M2.7 做了两轮测试。PinchBench 测日常 Agent 任务,Kilo Bench 测极端场景(89 个任务,从 Git 操作到密码分析到 QEMU 自动化)。
在 Kilo Bench 上,M2.7 以 47% 的通过率排名第二,仅次于 Qwen3.5-plus 的 49%。但 Kilo 团队发现了一个有趣的行为模式:
M2.7 是一个”深度阅读型”选手。 它在执行任务之前,会大量阅读周围的代码文件,分析依赖关系,追踪调用链。这让它在需要全局理解的复杂任务上表现出色——比如跨文件重构、大型代码库的 bug 修复。
但这也带来了一个问题:它太爱读了,有时候会因为过度探索而超时。M2.7 平均每次任务消耗约 280 万输入 Token,是所有测试模型中最高的。
Kilo 团队的评价很精准:**”深度阅读能发现更深层的 bug——但它会消耗更多时间和 Token。”**
还有一个值得注意的发现:每个模型都有”独门绝技”——解决了其他所有模型都解决不了的特定任务。M2.7 在一个 SPARQL 查询任务上独家通关,因为它能区分”EU 国家过滤器是一个资格条件,不是输出过滤器”——这是推理能力,不是编码能力。
Kilo 团队的结论是:这些模型不是互相替代的,是互补的。 一个理想的”预言家”如果能针对每个任务选最佳模型,总通过率可以从最佳单模型的 49% 提升到 67%。
和 DeepSeek、Qwen 怎么选
OpenClaw 社区里,国产模型的选择集中在三个:DeepSeek、Qwen(通义千问)和 MiniMax。快速对比:
| 维度 | MiniMax M2.7 | DeepSeek V3.2 | Qwen3.5-plus |
|---|---|---|---|
| PinchBench | 86.2% | ~84% | 85.8% |
| 价格(输入) | $0.30/M | $0.27/M | $0.50/M |
| 价格(输出) | $1.20/M | $0.42/M | $2.00/M |
| 上下文窗口 | 200K | 128K | 128K |
| Agent 工具调用 | 强(97% Skill 遵循率) | 强 | 强 |
| 自进化能力 | 有 | 无 | 无 |
| OpenClaw 集成 | OAuth 原生支持 | OpenAI 兼容 | OpenAI 兼容 |
| 最佳场景 | 复杂编码 + 长上下文 | 日常编码 + 极低成本 | 全能型 + 中文 |
选 DeepSeek 的理由: 极致便宜。如果你的 Agent 主要做简单任务——消息回复、日程管理、简单问答——DeepSeek V3.2 的输出价格只有 $0.42/M,是最省钱的选择。社区里有人用 DeepSeek 跑 OpenClaw,月费不到 $3。
选 Qwen3.5-plus 的理由: 中文能力最强,Kilo Bench 通过率最高(49%)。如果你的 Agent 主要用中文交互,处理中文文档和代码注释,Qwen 是最稳的选择。
选 M2.7 的理由: 编码能力最强(SWE-Pro 56.22%),上下文窗口最大(200K),Agent 场景优化最好(97% Skill 遵循率),OpenClaw 原生集成最丝滑。如果你的 Agent 需要做复杂编码任务——全栈项目交付、生产环境调试、跨文件重构——M2.7 是性价比最高的选择。
一句话总结:日常省钱选 DeepSeek,中文场景选 Qwen,编码 Agent 选 M2.7。
一键接入 OpenClaw
M2.7 接入 OpenClaw 非常简单。MiniMax 提供了 OAuth 原生支持,不需要手动配置 API Key:
1 | # 安装 OpenClaw |
如果你已经有 OpenClaw 环境,手动配置也很简单:
1 | { |
一个隐藏福利:选择 MiniMax 作为 Provider 后,OpenClaw 的图片工具会自动连接 MiniMax 的视觉模型 API——不需要额外配置,你的 Agent 就能”看图说话”。
值得关注的风险
公平起见,M2.7 也不是完美的。
第一,独立第三方评测不全是好消息。 Artificial Analysis 给 M2.7 的智能指数评分是 50 分,评价是”在同价位中领先,但在速度上偏慢,输出偏啰嗦”。BridgeBench(Vibe Coding 基准)上,M2.5 排第 12 名,M2.7 反而掉到了第 19 名——在”随意写代码”的场景里,M2.7 的深度阅读行为反而成了减分项。
第二,Token 消耗偏高。 M2.7 的”深度阅读”习惯意味着每次任务消耗的 Token 量高于同级模型。虽然单价便宜,但如果每次任务多读 3 倍的上下文,省钱的优势会被抵消一部分。
第三,不是开源模型。 M2.7 是闭源的。MiniMax 的 M2 系列(M2、M2.1、M2.5)是开源的,但 M2.7 目前只通过 API 提供。如果你需要本地部署以保护隐私,M2.7 暂时做不到。
第四,Anthropic 的蒸馏指控。 2026 年 2 月,Anthropic 指控三家中国公司——DeepSeek、Moonshot AI 和 MiniMax——试图从 Claude 模型中提取知识。这个争议目前没有定论,但如果你在合规敏感的环境下使用,需要评估这个风险。
写在最后
AI Agent 时代的竞争,模型选择是一个关键决策。
过去,这个选择很简单——用 Claude 就对了。但当 M2.7 以 1/20 的价格达到 95% 的效果时,这个选择变得有趣了。
尤其是对于 7×24 小时运行的 OpenClaw Agent 来说,模型成本是一个乘数效应。省下来的不是一次两次的 Token 费,是每天、每周、每月持续积累的开支。一年下来,M2.7 和 Claude Opus 的费用差距可能是数千美元级别。
当然,如果你的任务对准确性要求极高——处理敏感数据、关键业务逻辑——Claude Opus 仍然是最安全的选择。但对于 80% 的日常 Agent 任务,M2.7 已经”够用且便宜”。
最聪明的做法可能是混合部署:M2.7 做主力,处理日常编码和自动化;Claude 做后备,处理复杂推理和关键任务。OpenClaw 本身就支持模型路由和自动切换,这套方案天然可行。
你在 OpenClaw 里用的是什么模型?有没有试过 MiniMax 的 M2 系列?如果让你在 DeepSeek、Qwen 和 MiniMax 之间选一个跑 24 小时 Agent,你会选谁?欢迎在评论区分享你的选择和理由。