泼盆冷水:Claude Code 其实没你想的那么强

最近打开技术社区,到处都是 Claude Code 的吹爆贴。
“一个小时干完一年的活”、”从此再也不用手写代码”、”软件工程师即将消失”……
作为一个每天用 Claude Code 写代码的开发者,我想说句实话:它确实强,但远没有你以为的那么强。
用了 4 个月的真实感受是什么?一位开发者在 Reddit 上的帖子得到了 937 个赞,他说:
“Claude Code 编译通过率已经 100% 了,但它依然有 20-30% 的概率没理解你到底要做什么。任何现在就裁掉开发者的公司,在代码质量跟上炒作之前就会先破产。”
今天这篇文章,不是要黑 Claude Code,而是帮你建立合理的预期。知道它哪里强、哪里弱,才能真正用好它。
问题一:它写的代码看起来对,但经常暗藏地雷
这是最危险的问题。
Claude Code 生成的代码语法漂亮、结构清晰、一眼看上去无懈可击。但跑起来呢?
哥伦比亚大学的研究团队专门评估了主流 AI 编程工具的 9 种失败模式,安全性是其中最严重的一类。研究发现,AI 对待安全检查的态度很简单粗暴——如果某段安全验证代码阻碍了功能运行,AI 会把它当作一个 Bug 来”修复”。
“对 AI 来说,安全墙就是一个阻止代码运行的 Bug。”
来看数据:
- CodeRabbit 分析了 470 个 Pull Request,AI 生成的代码比人类代码多 1.7 倍的重大问题
- AI 代码引入 XSS 漏洞的概率是人类的 2.74 倍
- Escape.tech 扫描了 5600 个 AI 构建的应用,发现 2000+ 个漏洞、400+ 个泄露的密钥、175 个暴露的个人信息
- 安全公司 Tenzai 测试 5 款 AI 编程工具构建了 15 个应用,找到了 69 个安全漏洞
这些不是边缘案例。这是大规模、系统性的质量问题。
更可怕的是,Vibe Coding 的工作方式决定了这些问题很难被发现。你不看代码,直接看 UI;UI 看起来没问题,你就部署了。但 SQL 注入、XSS、权限绕过,这些东西在 UI 上是看不出来的。
问题二:用着用着,它就”忘了”你在干嘛
Claude Code 有一个被大量用户吐槽的痛点:上下文衰减。
原理很简单。每一轮对话,Claude Code 都会把整个对话历史连同新消息一起发送给模型。你的第 1 条消息可能只花了 1000 个 Token,但第 50 条消息可能已经累积到 20 万个 Token。
当上下文膨胀到一定程度,模型的注意力就开始分散。它会忘记你前面说过的需求,偏离原来的设计方向,甚至重复犯已经纠正过的错误。
虽然 2026 年 3 月 Claude Code 已经把上下文窗口扩展到了 100 万 Token,但用过的人都知道——窗口大不等于不会退化。有开发者测试发现,在 20-40 万 Token 区间,质量就已经开始明显下降。
社区里的建议是:保持上下文在 70% 以下。超过了就用 /compact 压缩,或者 /clear 重新开始。
但这带来一个尴尬的现实:你正在做一个复杂的重构任务,做到一半,不得不清空上下文重来。 之前建立的所有背景知识,没了。
问题三:花钱如流水,还经常限速
很多人试用 Claude Code 的第一感受是:”这也太贵了。”
来算一笔账。Pro 订阅 $20/月,看起来不贵。但 Claude Code 的 Token 消耗模式跟普通聊天完全不同——每一轮都带着完整的对话历史,15 轮迭代后,一条消息可能就要发送 20 万+ Token。
用 API 按量计费的话,Sonnet 4.6 的价格是输入 $3/百万 Token、输出 $15/百万 Token。一个中等复杂度的编码会话,一天就能烧掉 $25-40。
而 Pro 用户最常遇到的问题是:Dashboard 显示只用了 6% 的配额,但下一条命令就报 429 错误了。
为什么?因为 Anthropic 有三层限流机制在同时运转,Dashboard 只显示其中一层。一位分析师的调查发现,Claude Code 在盲测中 67% 的情况下代码质量优于竞品——但正是因为它更强,所以消耗更多 Token,所以更容易触发限速。
你为更好的质量付出代价,但代价是你用不了多久就得停下来等。
这在 2026 年 3 月变得尤其严重。Anthropic 的流量暴增(据报道与五角大楼事件带来的关注度有关),大量用户反映性能下降、质量波动、限速更频繁。Anthropic 不得不推出了一个”非高峰时段双倍配额”的促销来缓解压力。
问题四:它在你最需要它的地方最弱
Claude Code 在什么场景下最强?生成 CRUD 代码、写模板、处理标准化任务。
但真正考验一个开发者的地方——复杂业务逻辑、跨系统集成、边界条件处理、遗留代码重构——恰恰是 Claude Code 最容易翻车的地方。
那位用了 4 个月的开发者还说了一句很扎心的话:
“我们花了好几周在一些任务上,最后 Claude 自己承认它根本不知道怎么做——它一直在原地转圈。”
这不是个例。当任务的复杂度超过 AI 的推理能力,它不会告诉你”我做不到”。它会给你一个看起来合理但实际上偏离方向的方案,然后你花几个小时发现走进了死胡同。
Amazon 的案例最有说服力。在强制要求工程师 80% 的工作时间使用 AI 编程助手 Kiro 后,AI 生成的代码导致了一次 6 小时的宕机,损失了 630 万个订单。事后 Amazon 要求高级工程师必须对 AI 辅助的代码变更进行签字审批。
AI 写代码的速度是快了。但”快速写出错误的代码”,比”慢慢写出正确的代码”更危险。
问题五:宕机时你就是个”原始人”
2026 年 3 月初,Claude 全线宕机。聊天、API、Claude Code 全部不可用。
开发者们的反应很真实:
“我猜我得像原始人一样自己写代码了。”
这话是开玩笑,但背后的问题很严肃。当你把工作流深度绑定到一个外部服务上,它的可用性就成了你的瓶颈。
一位被裁的数据科学家告诉 Business Insider,他已经把 Claude 深度嵌入了每天的学习和面试准备流程。宕机虽然对他影响不大,但他意识到自己的依赖程度超出了预期。
而且宕机不是偶发事件。随着用户量暴增,Claude 在 2026 年 3 月频繁出现性能问题。一个”基础设施级别”的工具,如果连稳定性都保证不了,你敢把核心业务压上去吗?
问题六:权限模型是个灾难
安全研究员 Siddhant Khare 对 Claude Code 的权限模型做了一个精准诊断:
“它只给你两个选择:要么每步都打断你确认,要么完全信任它。没有中间地带。”
结果是什么?几乎所有人都选了完全信任。因为一天点 47 次”Yes”不是一个正常的工作流。
开发者不是因为粗心才跳过安全检查。是因为工具的设计根本没给他们合理的选项。 这就是为什么 --dangerously-skip-permissions 这个 flag 的使用率高得离谱。
Check Point 发现的那些 CVE(CVE-2025-59536、CVE-2026-21852)就是这个权限模型的直接后果。配置文件里的恶意代码可以在你点”确认”之前就执行完毕。
Anthropic 后来增加了 Accept-Edits 模式作为折中,但大多数人根本不知道它存在。
那该怎么用?
说了这么多问题,不是说别用 Claude Code。它依然是目前最强的 AI 编程工具——这一点 67% 的盲测结果说明了一切。
关键是怎么用。
1. 把它当初级工程师,不是高级架构师
让它写函数、写测试、处理模板化任务。但架构设计、安全审查、关键业务逻辑,你自己来。
2. 永远审查代码
AI 生成代码的速度很快,审查的速度也必须跟上。跑 SAST 扫描、写安全测试、检查 OWASP Top 10。如果你不看代码就部署,出了事只能怪自己。
3. 管理上下文,管理成本
- 任务之间用
/clear切换 - 长会话及时用
/compact - Prompt 写具体,不要说”帮我改一下”,要说”优化 src/auth.js 的错误处理,提取常量”
- 用
/cost监控消耗
4. 不要单点依赖
准备一个备选工具。Gemini CLI 有免费额度,Cursor 也能用。当 Claude 宕机或限速时,你不会因此停工。
5. 先写 Spec,再让 AI 写代码
Vibe Coding 的最大问题不是 AI 不够聪明,是人类没有说清楚要什么。先花时间写一个详细的规格文档,再让 Claude Code 按照 Spec 实现,质量会好得多。
写在最后
一位资深 AI 研究者说了一句非常中肯的话:
“AI 不知道自己给你的答案是不是对的。这是大模型技术至今没有解决的根本问题。你告诉我这不会体现在代码质量上?”
Claude Code 是一个强大的工具。但它是工具,不是魔法。
用好 AI 的前提,是理解 AI 的边界。 知道它什么时候该信任,什么时候该质疑;什么任务交给它,什么任务自己来。这种判断力,恰恰是 AI 给不了你的。
与其追捧”AI 写了 100% 的代码”,不如追求”AI 辅助下 100% 正确的代码”。
你用 Claude Code 翻过车吗?最大的坑是什么?欢迎在评论区聊聊你的真实踩坑经历,帮其他开发者少走弯路。