泼盆冷水：Claude Code 其实没你想的那么强

发表于 2026-03-21 更新于 2026-05-29 分类于观点阅读次数：本文字数： 3.6k 阅读时长 ≈ 3 分钟

cover

最近打开技术社区，到处都是 Claude Code 的吹爆贴。

“一个小时干完一年的活”、”从此再也不用手写代码”、”软件工程师即将消失”……

作为一个每天用 Claude Code 写代码的开发者，我想说句实话：它确实强，但远没有你以为的那么强。

用了 4 个月的真实感受是什么？一位开发者在 Reddit 上的帖子得到了 937 个赞，他说：

“Claude Code 编译通过率已经 100% 了，但它依然有 20-30% 的概率没理解你到底要做什么。任何现在就裁掉开发者的公司，在代码质量跟上炒作之前就会先破产。”

今天这篇文章，不是要黑 Claude Code，而是帮你建立合理的预期。知道它哪里强、哪里弱，才能真正用好它。

问题一：它写的代码看起来对，但经常暗藏地雷

这是最危险的问题。

Claude Code 生成的代码语法漂亮、结构清晰、一眼看上去无懈可击。但跑起来呢？

哥伦比亚大学的研究团队专门评估了主流 AI 编程工具的 9 种失败模式，安全性是其中最严重的一类。研究发现，AI 对待安全检查的态度很简单粗暴——如果某段安全验证代码阻碍了功能运行，AI 会把它当作一个 Bug 来”修复”。

“对 AI 来说，安全墙就是一个阻止代码运行的 Bug。”

来看数据：

CodeRabbit 分析了 470 个 Pull Request，AI 生成的代码比人类代码多 1.7 倍的重大问题
AI 代码引入 XSS 漏洞的概率是人类的 2.74 倍
Escape.tech 扫描了 5600 个 AI 构建的应用，发现 2000+ 个漏洞、400+ 个泄露的密钥、175 个暴露的个人信息
安全公司 Tenzai 测试 5 款 AI 编程工具构建了 15 个应用，找到了 69 个安全漏洞

这些不是边缘案例。这是大规模、系统性的质量问题。

更可怕的是，Vibe Coding 的工作方式决定了这些问题很难被发现。你不看代码，直接看 UI；UI 看起来没问题，你就部署了。但 SQL 注入、XSS、权限绕过，这些东西在 UI 上是看不出来的。

问题二：用着用着，它就”忘了”你在干嘛

Claude Code 有一个被大量用户吐槽的痛点：上下文衰减。

原理很简单。每一轮对话，Claude Code 都会把整个对话历史连同新消息一起发送给模型。你的第 1 条消息可能只花了 1000 个 Token，但第 50 条消息可能已经累积到 20 万个 Token。

当上下文膨胀到一定程度，模型的注意力就开始分散。它会忘记你前面说过的需求，偏离原来的设计方向，甚至重复犯已经纠正过的错误。

虽然 2026 年 3 月 Claude Code 已经把上下文窗口扩展到了 100 万 Token，但用过的人都知道——窗口大不等于不会退化。有开发者测试发现，在 20-40 万 Token 区间，质量就已经开始明显下降。

社区里的建议是：保持上下文在 70% 以下。超过了就用 /compact 压缩，或者 /clear 重新开始。

但这带来一个尴尬的现实：你正在做一个复杂的重构任务，做到一半，不得不清空上下文重来。 之前建立的所有背景知识，没了。

问题三：花钱如流水，还经常限速

很多人试用 Claude Code 的第一感受是：”这也太贵了。”

来算一笔账。Pro 订阅 $20/月，看起来不贵。但 Claude Code 的 Token 消耗模式跟普通聊天完全不同——每一轮都带着完整的对话历史，15 轮迭代后，一条消息可能就要发送 20 万+ Token。

用 API 按量计费的话，Sonnet 4.6 的价格是输入 $3/百万 Token、输出 $15/百万 Token。一个中等复杂度的编码会话，一天就能烧掉 $25-40。

而 Pro 用户最常遇到的问题是：Dashboard 显示只用了 6% 的配额，但下一条命令就报 429 错误了。

为什么？因为 Anthropic 有三层限流机制在同时运转，Dashboard 只显示其中一层。一位分析师的调查发现，Claude Code 在盲测中 67% 的情况下代码质量优于竞品——但正是因为它更强，所以消耗更多 Token，所以更容易触发限速。

你为更好的质量付出代价，但代价是你用不了多久就得停下来等。

这在 2026 年 3 月变得尤其严重。Anthropic 的流量暴增（据报道与五角大楼事件带来的关注度有关），大量用户反映性能下降、质量波动、限速更频繁。Anthropic 不得不推出了一个”非高峰时段双倍配额”的促销来缓解压力。

问题四：它在你最需要它的地方最弱

Claude Code 在什么场景下最强？生成 CRUD 代码、写模板、处理标准化任务。

但真正考验一个开发者的地方——复杂业务逻辑、跨系统集成、边界条件处理、遗留代码重构——恰恰是 Claude Code 最容易翻车的地方。

那位用了 4 个月的开发者还说了一句很扎心的话：

“我们花了好几周在一些任务上，最后 Claude 自己承认它根本不知道怎么做——它一直在原地转圈。”

这不是个例。当任务的复杂度超过 AI 的推理能力，它不会告诉你”我做不到”。它会给你一个看起来合理但实际上偏离方向的方案，然后你花几个小时发现走进了死胡同。

Amazon 的案例最有说服力。在强制要求工程师 80% 的工作时间使用 AI 编程助手 Kiro 后，AI 生成的代码导致了一次 6 小时的宕机，损失了 630 万个订单。事后 Amazon 要求高级工程师必须对 AI 辅助的代码变更进行签字审批。

AI 写代码的速度是快了。但”快速写出错误的代码”，比”慢慢写出正确的代码”更危险。

问题五：宕机时你就是个”原始人”

2026 年 3 月初，Claude 全线宕机。聊天、API、Claude Code 全部不可用。

开发者们的反应很真实：

“我猜我得像原始人一样自己写代码了。”

这话是开玩笑，但背后的问题很严肃。当你把工作流深度绑定到一个外部服务上，它的可用性就成了你的瓶颈。

一位被裁的数据科学家告诉 Business Insider，他已经把 Claude 深度嵌入了每天的学习和面试准备流程。宕机虽然对他影响不大，但他意识到自己的依赖程度超出了预期。

而且宕机不是偶发事件。随着用户量暴增，Claude 在 2026 年 3 月频繁出现性能问题。一个”基础设施级别”的工具，如果连稳定性都保证不了，你敢把核心业务压上去吗？

问题六：权限模型是个灾难

安全研究员 Siddhant Khare 对 Claude Code 的权限模型做了一个精准诊断：

“它只给你两个选择：要么每步都打断你确认，要么完全信任它。没有中间地带。”

结果是什么？几乎所有人都选了完全信任。因为一天点 47 次”Yes”不是一个正常的工作流。

开发者不是因为粗心才跳过安全检查。是因为工具的设计根本没给他们合理的选项。 这就是为什么 --dangerously-skip-permissions 这个 flag 的使用率高得离谱。

Check Point 发现的那些 CVE（CVE-2025-59536、CVE-2026-21852）就是这个权限模型的直接后果。配置文件里的恶意代码可以在你点”确认”之前就执行完毕。

Anthropic 后来增加了 Accept-Edits 模式作为折中，但大多数人根本不知道它存在。

那该怎么用？

说了这么多问题，不是说别用 Claude Code。它依然是目前最强的 AI 编程工具——这一点 67% 的盲测结果说明了一切。

关键是怎么用。

1. 把它当初级工程师，不是高级架构师

让它写函数、写测试、处理模板化任务。但架构设计、安全审查、关键业务逻辑，你自己来。

2. 永远审查代码

AI 生成代码的速度很快，审查的速度也必须跟上。跑 SAST 扫描、写安全测试、检查 OWASP Top 10。如果你不看代码就部署，出了事只能怪自己。

3. 管理上下文，管理成本

任务之间用 /clear 切换
长会话及时用 /compact
Prompt 写具体，不要说”帮我改一下”，要说”优化 src/auth.js 的错误处理，提取常量”
用 /cost 监控消耗

4. 不要单点依赖

准备一个备选工具。Gemini CLI 有免费额度，Cursor 也能用。当 Claude 宕机或限速时，你不会因此停工。

5. 先写 Spec，再让 AI 写代码

Vibe Coding 的最大问题不是 AI 不够聪明，是人类没有说清楚要什么。先花时间写一个详细的规格文档，再让 Claude Code 按照 Spec 实现，质量会好得多。

写在最后

一位资深 AI 研究者说了一句非常中肯的话：

“AI 不知道自己给你的答案是不是对的。这是大模型技术至今没有解决的根本问题。你告诉我这不会体现在代码质量上？”

Claude Code 是一个强大的工具。但它是工具，不是魔法。

用好 AI 的前提，是理解 AI 的边界。 知道它什么时候该信任，什么时候该质疑；什么任务交给它，什么任务自己来。这种判断力，恰恰是 AI 给不了你的。

与其追捧”AI 写了 100% 的代码”，不如追求”AI 辅助下 100% 正确的代码”。

你用 Claude Code 翻过车吗？最大的坑是什么？欢迎在评论区聊聊你的真实踩坑经历，帮其他开发者少走弯路。