OpenClaw 踩坑记:我劝你用最好的模型,笨模型相当于招了个笨助理

cover

上周一个朋友跟我吐槽。

他看了我之前写的 OpenClaw 教程,兴冲冲地装了一套。配好了 WhatsApp,接上了 API Key,准备体验传说中的”AI 贾维斯”。

但他为了省钱,选了最便宜的模型——Haiku。

结果呢?让它帮忙写个 Python 脚本,写出来的代码跑不通。让它改 Bug,越改越多。让它分析一个文件,它幻觉出了三个不存在的函数。最后他花了两个小时”教”AI 做一件本来 20 分钟就能搞定的事。

他跟我说:”这玩意儿就像我招了个实习生,还是那种上班第一天就敢重构你代码的实习生。”

我说:不是工具的问题,是你给它装了个笨脑子。

OpenClaw 是什么?30 秒搞清楚

如果你还不了解 OpenClaw,先快速补课。

OpenClaw 是 2026 年最火的开源 AI 项目——GitHub 上超过 25 万颗 Star,打破了 React 保持了十年的增长纪录。它的创始人是奥地利开发者 Peter Steinberger(PSPDFKit 的创始人),原名叫 “Clawdbot”,因为 Anthropic 的商标投诉改了两次名,最终定名 OpenClaw。

它本质上是一个通用 AI 助手框架。你可以把它接到 WhatsApp、Telegram、Slack、Discord 等十几个平台上,让 AI 帮你管日程、回消息、控制智能家居、跑脚本、写代码——几乎什么都能做。

关键是,OpenClaw 支持多种模型:Claude、GPT-4o、DeepSeek、Gemini,甚至本地的 Ollama 模型。你想用什么就用什么。

自由选择模型,这是 OpenClaw 最大的卖点,也是最大的坑。

因为很多人为了省钱,选了最便宜的模型。然后体验一落千丈,反过来骂工具不行。

模型之间的差距到底有多大?

你可能觉得,模型嘛,差不多的。都是大语言模型,能差到哪去?

差到天上地下。

以 Anthropic 的三个模型为例,SWE-bench Verified(业界最权威的 AI 编程能力基准测试)的得分:

模型 SWE-bench 得分 每百万 token 价格(输入/输出)
Opus 4.6 80.8% $5 / $25
Sonnet 4.6 79.6% $3 / $15
Haiku 4.5 73.3% $1 / $5

看起来差距不大?Opus 和 Haiku 只差 7.5 个百分点?

别被数字骗了。 这 7.5 个百分点的差距,在真实使用中是质变,不是量变。

笨模型的三宗罪

一位开发者在做 Flutter 项目时,对三个模型做了真实对比测试。他的总结很到位:

第一宗罪:幻觉。 Haiku 写代码快是快,但它经常”幻觉”不存在的文件名和函数。你让它改 auth_service.dart,它可能会引用一个根本不存在的 user_repository.dart。Sonnet 和 Opus 在这方面明显更可靠。

第二宗罪:失忆。 在长会话中,Haiku 的上下文保持能力急剧下降。它可能在第 10 条消息之后就忘了你在第 3 条消息里说的约束条件。Haiku 甚至不支持 1M 上下文窗口——它的上下文只有 200K,是 Opus 和 Sonnet 的五分之一。

第三宗罪:漏洞。 当那位开发者用 Opus 做最后的代码审查时,Opus 找到了 rebuild 问题、缺失的 dispose、和异步 Bug——这些问题 Haiku 和 Sonnet 完全没发现。

Reddit 上有人的评价更直接:

“Opus 是个怪物。上次用 Haiku 的感觉,就像在教一个 12 岁的小孩怎么集中注意力完成任务。”

另一位用户的比喻也很形象:

“Haiku 就像一个应届毕业生。如果你能信任一个应届生来写工具脚本,那它就够用了。”

“省钱”其实更贵

很多人选弱模型的理由只有一个:省钱。

但这里有一个反直觉的真相:用弱模型可能比用强模型更贵。

为什么?因为弱模型需要更多次的迭代。

一个典型的场景:你让 Haiku 写一个 LRU Cache。它给你一个”能跑但很基础”的版本。你发现边界条件没处理,要求它改。改完发现内存效率很差,又要求优化。优化完发现跟项目里其他模块的接口不兼容,再改。

四轮对话下来,消耗的 token 总量可能比直接用 Opus 一次搞定还多。

Morphllm 的分析印证了这一点:Opus 每个任务的 token 消耗确实更高,但它的”一次性成功率”也更高。用 Opus 做重构,经常一次就对了。用 Haiku 做重构,平均要改 2-3 次。

一位开发者算了一笔账:

“Opus 有时候反而更便宜——因为它第一次就把重构做对了。”

省模型钱,花在了反复修改的时间上。时间不是钱吗?

在 OpenClaw 里,模型差距会被放大

如果你只是在网页聊天界面用 AI,模型的差距还不那么明显——最多就是回答质量有高有低。

但在 OpenClaw 这种 Agent 模式下,模型差距会被急剧放大。

为什么?因为 Agent 是自主执行任务的。它需要自己决定下一步做什么、调用什么工具、怎么处理中间结果。每一步决策都是一次推理。推理能力弱的模型,每一步都可能走偏——而错误会像滚雪球一样越滚越大。

举个例子。你在 OpenClaw 里说:”帮我查一下这周的日程,找出空闲时间,然后在 Uber Eats 上预约一份明天中午的午餐。”

这个任务至少需要:

  1. 理解”这周”的含义(时间推理)
  2. 读取日历数据(工具调用)
  3. 分析空闲时间段(逻辑推理)
  4. 打开 Uber Eats(工具调用)
  5. 选择合适的餐厅和时间(决策)
  6. 下单但不支付(理解约束)

6 个步骤,每一步都需要正确的推理。用 Opus,可能一气呵成。用 Haiku,可能在第 3 步就搞混了时间,然后后面全错。

ClaudeFast 的对比文章说得好:Claude Code 是手术刀,OpenClaw 是瑞士军刀。但不管你用什么刀,刀刃钝了都切不动东西。 模型就是那个刀刃。

最佳模型策略:分层使用

说了这么多,不是说你任何时候都必须用最贵的模型。聪明的做法是分层使用

Reddit 上一位高赞回答总结了一套被广泛验证的策略:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Opus:负责规划和审查
- 架构设计
- 复杂调试
- 代码审查
- 安全分析

Sonnet:负责实现
- 日常编码
- 模块实现
- 文档编写
- 常规 CRUD

Haiku:负责跑腿
- 跑测试
- 格式调整
- 简单查询
- 协调和扫描

用人话说就是:Opus 是技术总监,做规划和把关;Sonnet 是高级工程师,干大部分活;Haiku 是实习生,跑腿打杂。

你不会让实习生做架构设计。同样,你也不应该让 Haiku 做需要深度推理的任务。

在 OpenClaw 里,如果你的主要用途是自动化日常事务(回消息、查天气、设闹钟),Haiku 或者 Sonnet 就够了。但如果你让它做复杂任务——多步骤自动化、代码生成、数据分析——拜托,给它一个好脑子。

OpenClaw 的其他坑

既然在聊踩坑,顺便说几个跟模型无关的坑。

安全问题

2026 年初,安全研究人员发现了 OpenClaw 的一个严重漏洞 CVE-2026-25253,CVSS 评分 8.8(满分 10)。攻击者可以通过 WebSocket 的源头头绕过,在暴露的 OpenClaw 实例上执行任意代码。

更吓人的数据:研究人员发现了超过 13.5 万个暴露在公网的 OpenClaw 实例,其中 5 万多个直接存在此漏洞

另外,ClawHub(OpenClaw 的社区技能市场)的安全审计发现,约 12% 的技能存在恶意行为。也就是说,你在技能市场随便装的每 8 个扩展里,可能有 1 个是有问题的。

如果你在用 OpenClaw,请务必:不要把它暴露在公网上,谨慎安装第三方技能,定期更新到最新版本。

安装复杂

Claude Code 30 秒就能装好。OpenClaw 需要配置 Node.js 22+、各个平台的 API Key、LLM API Key,加上调试可能需要 30-60 分钟。Reddit 上关于安装问题的吐槽帖子不计其数。

创始人去了 OpenAI

2026 年 2 月 14 日,Steinberger 宣布加入 OpenAI。OpenClaw 将转交给一个开源基金会管理,背后有 OpenAI 的资金支持。这对项目的长期方向意味着什么?没人知道。但创始人离开,总是一个风险信号。

写在最后

回到最初的话题。

我那个朋友后来换成了 Sonnet,体验立刻好了一大截。再后来在做复杂任务时切到 Opus,他说”感觉像换了一个人”。

AI 工具的上限,不是由工具本身决定的,而是由背后的模型决定的。

OpenClaw 也好,Claude Code 也好,Cursor 也好——它们只是壳。壳再漂亮,里面的大脑不行,输出就是垃圾。就像你买了一辆法拉利的车壳,但装了个奥拓的发动机。外面看着挺唬人,一脚油门下去,原地不动。

所以我的建议很简单:

  1. 预算允许的话,默认用 Opus。 它贵,但它省时间。时间比钱贵。
  2. 日常琐事可以用 Sonnet。 性价比最高,80% 的任务它都能胜任。
  3. Haiku 只用来做最简单的事。 格式化、跑测试、回复模板消息。别指望它做任何需要”思考”的事。
  4. 在 Agent 场景下,宁可多花钱也要用好模型。 Agent 的错误会级联放大,一步错步步错。

你在用 OpenClaw 或者其他 AI 工具时,有没有因为模型选择吃过亏?你现在的模型策略是什么?欢迎评论区聊聊你的真实体验。