PinchBench 86.2%，价格只有Claude的1/20：MiniMax M2.7凭什么成为OpenClaw新宠？

发表于 2026-03-19 更新于 2026-05-29 分类于阅读阅读次数：本文字数： 4.8k 阅读时长 ≈ 4 分钟

cover

跑 OpenClaw 最大的开销是什么？不是硬件，不是电费，是模型 API 的 Token 费用。

一个活跃的 OpenClaw Agent 24 小时跑下来，上下文能膨胀到 20 万 Token 以上。用 Claude Opus 跑，一天烧掉几十美元是常事。用 Claude Sonnet 省一点，但一个月下来也是一笔不小的开销。

有没有一个模型，能力接近 Claude，但价格只有它的零头？

3 月 18 日，MiniMax 发布了 M2.7。在 Kilo 团队的 PinchBench（OpenClaw Agent 专用基准测试）上拿到了 **86.2%**，距离 Claude Opus 4.6 的 87.4% 只差 1.2 个百分点。价格呢？输入 $0.30/M Token，输出 $1.20/M Token——大约是 Claude 的 1/20。

更有意思的是，这个模型会”自我进化”。它参与了自己的训练过程，自主跑了 100 多轮优化，把内部评测分数提升了 30%。

今天我们来聊聊：M2.7 到底有多强？它真的适合跑 OpenClaw 吗？和 DeepSeek、Qwen 比谁更值？

M2.7 核心数据：全面对标 Opus

先看硬数据。M2.7 在多个关键基准测试上的表现：

基准测试	M2.7	参考对比
SWE-Pro（多语言编程）	56.22%	接近 Opus 最佳水平
SWE Multilingual	76.5%	多语言代码能力突出
VIBE-Pro（全栈项目交付）	55.6%	接近 Opus 4.6
Terminal Bench 2（系统理解）	57.0%	复杂工程系统
PinchBench（OpenClaw Agent）	86.2%	Opus 4.6 为 87.4%
MLE Bench Lite（机器学习竞赛）	66.6% 奖牌率	追平 Gemini 3.1

几个关键信息：

第一，编码能力已经到了第一梯队。 SWE-Pro 56.22%，和 GPT-5.3-Codex 持平。SWE Multilingual 76.5%，意味着不只是 Python 写得好，TypeScript、Rust、Go 也都能打。

第二，Agent 能力特别强。 PinchBench 是专门测试 OpenClaw Agent 场景的基准，涵盖了代码生成、工具调用、多轮对话、文件操作等真实任务。86.2% 的得分排在第 5 名，前面是 Opus 4.6（87.4%）、Sonnet 4.6（87.0%）、GLM-5（86.4%）和 GPT-5.4（86.4%）。

第三，从 M2.5 到 M2.7，跳跃巨大。 M2.5 在 PinchBench 上是 82.5%，M2.7 直接跳到 86.2%，3.7 个百分点的提升把 MiniMax 从”中游”拉到了”顶级”。

价格：真正的杀手锏

能力接近顶尖不算新鲜，价格才是 M2.7 真正的杀手锏。

模型	输入价格（/M Token）	输出价格（/M Token）
Claude Opus 4.6	$15.00	$75.00
Claude Sonnet 4.6	$3.00	$15.00
GPT-5.4	$2.50	$10.00
MiniMax M2.7	$0.30	$1.20
DeepSeek V3.2	$0.27	$0.42

M2.7 的输入价格是 Opus 的 1/50，输出价格是 Opus 的 1/62。即使和”性价比之王” Sonnet 比，M2.7 也便宜了 10 倍以上。

VentureBeat 的评价是：M2.7 是目前世界上最便宜的前沿级 AI 模型之一。

算一笔账：一个 OpenClaw Agent 7×24 小时运行，每天消耗大约 500 万 Token（保守估计）。用 Claude Opus 一天要花 $100+，用 M2.7 只需要 $3-5。一个月下来，省的钱够买一台 Mac Mini。

自进化：AI 参与训练自己

M2.7 最让人兴奋的不是跑分，是它的训练方式。

传统模型训练：人类工程师写数据 → 训练模型 → 人类评估 → 调参 → 再训练。整个过程依赖大量人力。

M2.7 的方式：模型自己参与优化。MiniMax 让 M2.7 自主构建了强化学习的训练脚手架——它自己搜索最优的采样参数组合（温度、频率惩罚、存在惩罚），自己设计更具体的工作流指南（比如修复 bug 后自动搜索其他文件中的相同模式），自己添加循环检测等优化。

这个过程跑了 100 多轮，最终在内部评测集上实现了 30% 的性能提升。

MiniMax 在官方公告里说：**”我们相信，未来的 AI 自进化将逐步走向完全自主，在无人参与的情况下协调数据构建、模型训练、推理架构、评估等各个阶段。”**

这是一个信号。AI 不只是在帮人写代码，它开始帮自己写训练代码了。

OpenClaw 实测：深度阅读型选手

Kilo 团队对 M2.7 做了两轮测试。PinchBench 测日常 Agent 任务，Kilo Bench 测极端场景（89 个任务，从 Git 操作到密码分析到 QEMU 自动化）。

在 Kilo Bench 上，M2.7 以 47% 的通过率排名第二，仅次于 Qwen3.5-plus 的 49%。但 Kilo 团队发现了一个有趣的行为模式：

M2.7 是一个”深度阅读型”选手。 它在执行任务之前，会大量阅读周围的代码文件，分析依赖关系，追踪调用链。这让它在需要全局理解的复杂任务上表现出色——比如跨文件重构、大型代码库的 bug 修复。

但这也带来了一个问题：它太爱读了，有时候会因为过度探索而超时。M2.7 平均每次任务消耗约 280 万输入 Token，是所有测试模型中最高的。

Kilo 团队的评价很精准：**”深度阅读能发现更深层的 bug——但它会消耗更多时间和 Token。”**

还有一个值得注意的发现：每个模型都有”独门绝技”——解决了其他所有模型都解决不了的特定任务。M2.7 在一个 SPARQL 查询任务上独家通关，因为它能区分”EU 国家过滤器是一个资格条件，不是输出过滤器”——这是推理能力，不是编码能力。

Kilo 团队的结论是：这些模型不是互相替代的，是互补的。 一个理想的”预言家”如果能针对每个任务选最佳模型，总通过率可以从最佳单模型的 49% 提升到 67%。

和 DeepSeek、Qwen 怎么选

OpenClaw 社区里，国产模型的选择集中在三个：DeepSeek、Qwen（通义千问）和 MiniMax。快速对比：

维度	MiniMax M2.7	DeepSeek V3.2	Qwen3.5-plus
PinchBench	86.2%	~84%	85.8%
价格（输入）	$0.30/M	$0.27/M	$0.50/M
价格（输出）	$1.20/M	$0.42/M	$2.00/M
上下文窗口	200K	128K	128K
Agent 工具调用	强（97% Skill 遵循率）	强	强
自进化能力	有	无	无
OpenClaw 集成	OAuth 原生支持	OpenAI 兼容	OpenAI 兼容
最佳场景	复杂编码 + 长上下文	日常编码 + 极低成本	全能型 + 中文

选 DeepSeek 的理由： 极致便宜。如果你的 Agent 主要做简单任务——消息回复、日程管理、简单问答——DeepSeek V3.2 的输出价格只有 $0.42/M，是最省钱的选择。社区里有人用 DeepSeek 跑 OpenClaw，月费不到 $3。

选 Qwen3.5-plus 的理由： 中文能力最强，Kilo Bench 通过率最高（49%）。如果你的 Agent 主要用中文交互，处理中文文档和代码注释，Qwen 是最稳的选择。

选 M2.7 的理由： 编码能力最强（SWE-Pro 56.22%），上下文窗口最大（200K），Agent 场景优化最好（97% Skill 遵循率），OpenClaw 原生集成最丝滑。如果你的 Agent 需要做复杂编码任务——全栈项目交付、生产环境调试、跨文件重构——M2.7 是性价比最高的选择。

一句话总结：日常省钱选 DeepSeek，中文场景选 Qwen，编码 Agent 选 M2.7。

一键接入 OpenClaw

M2.7 接入 OpenClaw 非常简单。MiniMax 提供了 OAuth 原生支持，不需要手动配置 API Key：

# 安装 OpenClaw
curl -fsSL https://openclaw.ai/install.sh | bash

# 启动向导，选择 MiniMax 作为模型提供商
# 选择 OAuth 认证，浏览器登录即可

如果你已经有 OpenClaw 环境，手动配置也很简单：

{
  "providers": {
    "minimax": {
      "type": "openai-compatible",
      "baseUrl": "https://api.minimax.io/v1",
      "apiKey": "你的API-Key"
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "provider": "minimax",
        "name": "MiniMax-M2.7"
      }
    }
  }
}

一个隐藏福利：选择 MiniMax 作为 Provider 后，OpenClaw 的图片工具会自动连接 MiniMax 的视觉模型 API——不需要额外配置，你的 Agent 就能”看图说话”。

值得关注的风险

公平起见，M2.7 也不是完美的。

第一，独立第三方评测不全是好消息。 Artificial Analysis 给 M2.7 的智能指数评分是 50 分，评价是”在同价位中领先，但在速度上偏慢，输出偏啰嗦”。BridgeBench（Vibe Coding 基准）上，M2.5 排第 12 名，M2.7 反而掉到了第 19 名——在”随意写代码”的场景里，M2.7 的深度阅读行为反而成了减分项。

第二，Token 消耗偏高。 M2.7 的”深度阅读”习惯意味着每次任务消耗的 Token 量高于同级模型。虽然单价便宜，但如果每次任务多读 3 倍的上下文，省钱的优势会被抵消一部分。

第三，不是开源模型。 M2.7 是闭源的。MiniMax 的 M2 系列（M2、M2.1、M2.5）是开源的，但 M2.7 目前只通过 API 提供。如果你需要本地部署以保护隐私，M2.7 暂时做不到。

第四，Anthropic 的蒸馏指控。 2026 年 2 月，Anthropic 指控三家中国公司——DeepSeek、Moonshot AI 和 MiniMax——试图从 Claude 模型中提取知识。这个争议目前没有定论，但如果你在合规敏感的环境下使用，需要评估这个风险。

写在最后

AI Agent 时代的竞争，模型选择是一个关键决策。

过去，这个选择很简单——用 Claude 就对了。但当 M2.7 以 1/20 的价格达到 95% 的效果时，这个选择变得有趣了。

尤其是对于 7×24 小时运行的 OpenClaw Agent 来说，模型成本是一个乘数效应。省下来的不是一次两次的 Token 费，是每天、每周、每月持续积累的开支。一年下来，M2.7 和 Claude Opus 的费用差距可能是数千美元级别。

当然，如果你的任务对准确性要求极高——处理敏感数据、关键业务逻辑——Claude Opus 仍然是最安全的选择。但对于 80% 的日常 Agent 任务，M2.7 已经”够用且便宜”。

最聪明的做法可能是混合部署：M2.7 做主力，处理日常编码和自动化；Claude 做后备，处理复杂推理和关键任务。OpenClaw 本身就支持模型路由和自动切换，这套方案天然可行。

你在 OpenClaw 里用的是什么模型？有没有试过 MiniMax 的 M2 系列？如果让你在 DeepSeek、Qwen 和 MiniMax 之间选一个跑 24 小时 Agent，你会选谁？欢迎在评论区分享你的选择和理由。