PinchBench 86.2%,价格只有Claude的1/20:MiniMax M2.7凭什么成为OpenClaw新宠?

cover

跑 OpenClaw 最大的开销是什么?不是硬件,不是电费,是模型 API 的 Token 费用。

一个活跃的 OpenClaw Agent 24 小时跑下来,上下文能膨胀到 20 万 Token 以上。用 Claude Opus 跑,一天烧掉几十美元是常事。用 Claude Sonnet 省一点,但一个月下来也是一笔不小的开销。

有没有一个模型,能力接近 Claude,但价格只有它的零头?

3 月 18 日,MiniMax 发布了 M2.7。在 Kilo 团队的 PinchBench(OpenClaw Agent 专用基准测试)上拿到了 **86.2%**,距离 Claude Opus 4.6 的 87.4% 只差 1.2 个百分点。价格呢?输入 $0.30/M Token,输出 $1.20/M Token——大约是 Claude 的 1/20

更有意思的是,这个模型会”自我进化”。它参与了自己的训练过程,自主跑了 100 多轮优化,把内部评测分数提升了 30%。

今天我们来聊聊:M2.7 到底有多强?它真的适合跑 OpenClaw 吗?和 DeepSeek、Qwen 比谁更值?

M2.7 核心数据:全面对标 Opus

先看硬数据。M2.7 在多个关键基准测试上的表现:

基准测试 M2.7 参考对比
SWE-Pro(多语言编程) 56.22% 接近 Opus 最佳水平
SWE Multilingual 76.5% 多语言代码能力突出
VIBE-Pro(全栈项目交付) 55.6% 接近 Opus 4.6
Terminal Bench 2(系统理解) 57.0% 复杂工程系统
PinchBench(OpenClaw Agent) 86.2% Opus 4.6 为 87.4%
MLE Bench Lite(机器学习竞赛) 66.6% 奖牌率 追平 Gemini 3.1

几个关键信息:

第一,编码能力已经到了第一梯队。 SWE-Pro 56.22%,和 GPT-5.3-Codex 持平。SWE Multilingual 76.5%,意味着不只是 Python 写得好,TypeScript、Rust、Go 也都能打。

第二,Agent 能力特别强。 PinchBench 是专门测试 OpenClaw Agent 场景的基准,涵盖了代码生成、工具调用、多轮对话、文件操作等真实任务。86.2% 的得分排在第 5 名,前面是 Opus 4.6(87.4%)、Sonnet 4.6(87.0%)、GLM-5(86.4%)和 GPT-5.4(86.4%)。

第三,从 M2.5 到 M2.7,跳跃巨大。 M2.5 在 PinchBench 上是 82.5%,M2.7 直接跳到 86.2%,3.7 个百分点的提升把 MiniMax 从”中游”拉到了”顶级”。

价格:真正的杀手锏

能力接近顶尖不算新鲜,价格才是 M2.7 真正的杀手锏。

模型 输入价格(/M Token) 输出价格(/M Token)
Claude Opus 4.6 $15.00 $75.00
Claude Sonnet 4.6 $3.00 $15.00
GPT-5.4 $2.50 $10.00
MiniMax M2.7 $0.30 $1.20
DeepSeek V3.2 $0.27 $0.42

M2.7 的输入价格是 Opus 的 1/50,输出价格是 Opus 的 1/62。即使和”性价比之王” Sonnet 比,M2.7 也便宜了 10 倍以上。

VentureBeat 的评价是:M2.7 是目前世界上最便宜的前沿级 AI 模型之一。

算一笔账:一个 OpenClaw Agent 7×24 小时运行,每天消耗大约 500 万 Token(保守估计)。用 Claude Opus 一天要花 $100+,用 M2.7 只需要 $3-5。一个月下来,省的钱够买一台 Mac Mini。

自进化:AI 参与训练自己

M2.7 最让人兴奋的不是跑分,是它的训练方式。

传统模型训练:人类工程师写数据 → 训练模型 → 人类评估 → 调参 → 再训练。整个过程依赖大量人力。

M2.7 的方式:模型自己参与优化。MiniMax 让 M2.7 自主构建了强化学习的训练脚手架——它自己搜索最优的采样参数组合(温度、频率惩罚、存在惩罚),自己设计更具体的工作流指南(比如修复 bug 后自动搜索其他文件中的相同模式),自己添加循环检测等优化。

这个过程跑了 100 多轮,最终在内部评测集上实现了 30% 的性能提升

MiniMax 在官方公告里说:**”我们相信,未来的 AI 自进化将逐步走向完全自主,在无人参与的情况下协调数据构建、模型训练、推理架构、评估等各个阶段。”**

这是一个信号。AI 不只是在帮人写代码,它开始帮自己写训练代码了。

OpenClaw 实测:深度阅读型选手

Kilo 团队对 M2.7 做了两轮测试。PinchBench 测日常 Agent 任务,Kilo Bench 测极端场景(89 个任务,从 Git 操作到密码分析到 QEMU 自动化)。

在 Kilo Bench 上,M2.7 以 47% 的通过率排名第二,仅次于 Qwen3.5-plus 的 49%。但 Kilo 团队发现了一个有趣的行为模式:

M2.7 是一个”深度阅读型”选手。 它在执行任务之前,会大量阅读周围的代码文件,分析依赖关系,追踪调用链。这让它在需要全局理解的复杂任务上表现出色——比如跨文件重构、大型代码库的 bug 修复。

但这也带来了一个问题:它太爱读了,有时候会因为过度探索而超时。M2.7 平均每次任务消耗约 280 万输入 Token,是所有测试模型中最高的。

Kilo 团队的评价很精准:**”深度阅读能发现更深层的 bug——但它会消耗更多时间和 Token。”**

还有一个值得注意的发现:每个模型都有”独门绝技”——解决了其他所有模型都解决不了的特定任务。M2.7 在一个 SPARQL 查询任务上独家通关,因为它能区分”EU 国家过滤器是一个资格条件,不是输出过滤器”——这是推理能力,不是编码能力。

Kilo 团队的结论是:这些模型不是互相替代的,是互补的。 一个理想的”预言家”如果能针对每个任务选最佳模型,总通过率可以从最佳单模型的 49% 提升到 67%。

和 DeepSeek、Qwen 怎么选

OpenClaw 社区里,国产模型的选择集中在三个:DeepSeek、Qwen(通义千问)和 MiniMax。快速对比:

维度 MiniMax M2.7 DeepSeek V3.2 Qwen3.5-plus
PinchBench 86.2% ~84% 85.8%
价格(输入) $0.30/M $0.27/M $0.50/M
价格(输出) $1.20/M $0.42/M $2.00/M
上下文窗口 200K 128K 128K
Agent 工具调用 强(97% Skill 遵循率)
自进化能力
OpenClaw 集成 OAuth 原生支持 OpenAI 兼容 OpenAI 兼容
最佳场景 复杂编码 + 长上下文 日常编码 + 极低成本 全能型 + 中文

选 DeepSeek 的理由: 极致便宜。如果你的 Agent 主要做简单任务——消息回复、日程管理、简单问答——DeepSeek V3.2 的输出价格只有 $0.42/M,是最省钱的选择。社区里有人用 DeepSeek 跑 OpenClaw,月费不到 $3。

选 Qwen3.5-plus 的理由: 中文能力最强,Kilo Bench 通过率最高(49%)。如果你的 Agent 主要用中文交互,处理中文文档和代码注释,Qwen 是最稳的选择。

选 M2.7 的理由: 编码能力最强(SWE-Pro 56.22%),上下文窗口最大(200K),Agent 场景优化最好(97% Skill 遵循率),OpenClaw 原生集成最丝滑。如果你的 Agent 需要做复杂编码任务——全栈项目交付、生产环境调试、跨文件重构——M2.7 是性价比最高的选择。

一句话总结:日常省钱选 DeepSeek,中文场景选 Qwen,编码 Agent 选 M2.7。

一键接入 OpenClaw

M2.7 接入 OpenClaw 非常简单。MiniMax 提供了 OAuth 原生支持,不需要手动配置 API Key:

1
2
3
4
5
# 安装 OpenClaw
curl -fsSL https://openclaw.ai/install.sh | bash

# 启动向导,选择 MiniMax 作为模型提供商
# 选择 OAuth 认证,浏览器登录即可

如果你已经有 OpenClaw 环境,手动配置也很简单:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
{
"providers": {
"minimax": {
"type": "openai-compatible",
"baseUrl": "https://api.minimax.io/v1",
"apiKey": "你的API-Key"
}
},
"agents": {
"defaults": {
"model": {
"provider": "minimax",
"name": "MiniMax-M2.7"
}
}
}
}

一个隐藏福利:选择 MiniMax 作为 Provider 后,OpenClaw 的图片工具会自动连接 MiniMax 的视觉模型 API——不需要额外配置,你的 Agent 就能”看图说话”。

值得关注的风险

公平起见,M2.7 也不是完美的。

第一,独立第三方评测不全是好消息。 Artificial Analysis 给 M2.7 的智能指数评分是 50 分,评价是”在同价位中领先,但在速度上偏慢,输出偏啰嗦”。BridgeBench(Vibe Coding 基准)上,M2.5 排第 12 名,M2.7 反而掉到了第 19 名——在”随意写代码”的场景里,M2.7 的深度阅读行为反而成了减分项。

第二,Token 消耗偏高。 M2.7 的”深度阅读”习惯意味着每次任务消耗的 Token 量高于同级模型。虽然单价便宜,但如果每次任务多读 3 倍的上下文,省钱的优势会被抵消一部分。

第三,不是开源模型。 M2.7 是闭源的。MiniMax 的 M2 系列(M2、M2.1、M2.5)是开源的,但 M2.7 目前只通过 API 提供。如果你需要本地部署以保护隐私,M2.7 暂时做不到。

第四,Anthropic 的蒸馏指控。 2026 年 2 月,Anthropic 指控三家中国公司——DeepSeek、Moonshot AI 和 MiniMax——试图从 Claude 模型中提取知识。这个争议目前没有定论,但如果你在合规敏感的环境下使用,需要评估这个风险。

写在最后

AI Agent 时代的竞争,模型选择是一个关键决策。

过去,这个选择很简单——用 Claude 就对了。但当 M2.7 以 1/20 的价格达到 95% 的效果时,这个选择变得有趣了。

尤其是对于 7×24 小时运行的 OpenClaw Agent 来说,模型成本是一个乘数效应。省下来的不是一次两次的 Token 费,是每天、每周、每月持续积累的开支。一年下来,M2.7 和 Claude Opus 的费用差距可能是数千美元级别。

当然,如果你的任务对准确性要求极高——处理敏感数据、关键业务逻辑——Claude Opus 仍然是最安全的选择。但对于 80% 的日常 Agent 任务,M2.7 已经”够用且便宜”。

最聪明的做法可能是混合部署:M2.7 做主力,处理日常编码和自动化;Claude 做后备,处理复杂推理和关键任务。OpenClaw 本身就支持模型路由和自动切换,这套方案天然可行。


你在 OpenClaw 里用的是什么模型?有没有试过 MiniMax 的 M2 系列?如果让你在 DeepSeek、Qwen 和 MiniMax 之间选一个跑 24 小时 Agent,你会选谁?欢迎在评论区分享你的选择和理由。