放弃 Cursor 和 Codex?Claude Opus 4.6 的「多智能体结对编程」到底有多恐怖?

上周,一个朋友给我发了条消息:”我刚用 Claude Code 跑了一个任务,它自己拆成了 5 个子任务,开了 5 个 Agent 并行干活,20 分钟搞完了我原来要写一天的代码。”
我当时的反应是:这不可能,他肯定夸大了。
然后我自己试了。
结果发现,他说的是真的。而且他还保守了。
Anthropic 在发布 Opus 4.6 的同时,推出了一个叫 Agent Teams 的功能。简单说:你可以让多个 Claude 实例像一个开发团队一样,并行协作,完成复杂任务。
这不是一个 AI 在那里写代码。这是一群 AI 在开会、分工、写代码、互相 Review。
听起来像科幻片?但它已经在真实的开发环境里跑起来了。
AI 编程工具的三国杀
先说说现在的格局。
2026 年初,AI 编程工具市场形成了三足鼎立的局面:
- Cursor:IDE 派的代表。基于 VS Code 魔改,AI 深度集成在编辑器里,写代码时有 Tab 补全、有 Composer 多文件编辑、有 Agent 模式。体验最丝滑。
- OpenAI Codex:异步派的代表。2 月发布的 macOS 应用,核心理念是”把任务丢给 AI,你去喝咖啡”。支持多 Agent、后台运行、GitHub 深度集成。
- Claude Code:终端派的代表。跑在命令行里,Plan Mode 先规划再执行,Subagents 自动拆解任务。最”硬核”,也最灵活。
三个工具的开发者群体有大量重叠。很多人的日常是:用 Cursor 写代码,用 Codex 做 Code Review,用 Claude Code 处理架构级的重构。
Builder.io 的创始人 Steve Sewell 做过一个对比测评,结论是:”这三个工具正在趋同。Agent 行为越来越像,模型能力越来越接近,真正的差异在工作流上。“
那 Claude Code 的 Agent Teams,到底凭什么让人觉得”恐怖”?
从”单兵作战”到”团队协作”
传统的 AI 编程助手,不管是 Cursor 还是 Codex,本质上都是一个 AI 在干活。你给它一个任务,它一步一步做完。
Claude Code 之前也是这样。虽然有 Subagent(子智能体),但那只是主 Agent 把小任务委派出去,做完回来汇报。像一个经理派实习生去查资料,查完了经理继续干。
Agent Teams 不一样。它的架构是这样的:
1 | Lead Agent(领导) |
每个 Teammate 运行在独立的 tmux 窗格里,有自己的上下文、自己的工具权限。关键区别在于:Teammate 之间可以互相通信、互相质疑。
这不是简单的任务分发。这是一个能自组织的开发团队。
Anthropic 的研究员 Nicholas Carlini 做过一个标志性实验:用 16 个并行的 Claude 实例,从零开始用 Rust 写了一个 C 编译器,能编译 Linux 内核。
16 个 AI 同时写不同的模块,自动协调接口,自动解决冲突。这不是未来,这是现在。
Agent Teams vs Subagents:别搞混了
很多人把 Agent Teams 和 Subagents 搞混。它们是完全不同的东西。
| 特性 | Subagents | Agent Teams |
|---|---|---|
| 关系 | 主从关系,子任务做完汇报 | 平等协作,互相通信 |
| 通信 | 只能和主 Agent 交流 | Teammate 之间可以直接对话 |
| 独立性 | 共享主 Agent 的上下文 | 每个 Teammate 独立上下文 |
| 适合场景 | 简单的任务委派 | 复杂的多角色协作 |
| 默认状态 | 内置可用 | 实验性功能,需手动开启 |
Subagents 像是你派出去的侦察兵,Agent Teams 像是一个完整的特种小队。
怎么用 Agent Teams?
Agent Teams 目前还是实验性功能,需要手动开启。
第一步:开启功能
在 settings.json 或环境变量中添加:
1 | { |
或者设置环境变量:
1 | export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=true |
第二步:描述任务
不需要手动定义团队结构。你只需要用自然语言描述任务,Claude 会自动判断是否需要组建团队,以及需要几个人。
1 | 我要给这个项目做一次全面的代码审查。 |
Claude 会自动拆分任务,启动多个 Teammate,每个负责不同的审查维度。
第三步:观察和介入
每个 Teammate 运行在独立的 tmux 窗格里。你可以用 Shift + Up/Down 切换不同的 Teammate,查看它们的工作进度,甚至直接接管某个 Teammate 的工作。
这就像你在一个开放办公室里,可以随时走到任何一个工位旁边看看。
推荐的团队规模
Anthropic 的建议是 3-5 个 Teammate。太多会增加协调开销,收益递减。
一个真实场景:全栈功能开发
想象你要给一个 Web 应用添加用户通知系统。传统方式,你得依次完成数据库设计、后端 API、前端组件、测试用例。串行工作。
用 Agent Teams,你可以这么做:
1 | 给应用添加一个用户通知系统。 |
Claude 会组建这样的团队:
- Lead:整体架构设计,定义接口规范
- Teammate 1:数据库 Schema 设计和 Migration
- Teammate 2:后端 API 开发
- Teammate 3:前端组件开发
- Teammate 4:测试用例编写
Lead 先出架构方案,定义好各模块的接口契约。然后 4 个 Teammate 并行开发。开发过程中,它们会互相通信——比如 Teammate 2 发现 API 需要一个新字段,会通知 Teammate 1 更新 Schema,同时通知 Teammate 3 调整前端调用。
原来串行 4 小时的活,现在 1 小时搞定。
Opus 4.6 带来了什么?
Agent Teams 之所以选在 Opus 4.6 发布时推出,不是巧合。
Opus 4.6 有几个关键能力支撑了多智能体协作:
1. 100 万 Token 上下文窗口
这是 Opus 系列第一次支持百万级上下文。对于 Agent Teams 来说,Lead Agent 需要”看到”整个项目的全貌才能做好任务分解。100 万 Token,大约相当于一个中型项目的完整代码库。
2. 更强的任务规划能力
Opus 4.6 在 Terminal-Bench 2.0(真实世界编程基准测试)上拿到了业界最高分。它能更精准地拆解任务、识别依赖关系、发现潜在冲突。
3. 更长的 Agent 持续能力
Anthropic 说 Opus 4.6 可以”sustain agentic tasks for longer”。翻译成人话:它在长时间运行的复杂任务中不容易”走神”或”忘事”。
4. 自我纠错能力
Opus 4.6 改进了代码审查和调试技能,能更好地发现自己的错误。这在多智能体场景下特别重要——一个 Teammate 写的代码如果有问题,其他 Teammate 或 Lead 能及时发现。
老实说,它和 Cursor、Codex 比怎么样?
先说结论:没有完美的工具,只有适合的场景。
Cursor 的优势
Cursor 是体验最好的 AI IDE。Tab 补全、内联编辑、可视化 Diff,这些交互在终端里做不到。如果你大部分时间在写代码、改代码,Cursor 的即时反馈无可替代。
而且 Cursor 支持切换多种模型,包括 Claude 和 GPT-5。它不绑定某一家。
Codex 的优势
Codex 的杀手锏是 GitHub 集成和异步工作流。你可以把任务丢给 Codex,转头去开会,回来 PR 已经开好了。它的自动 Code Review 功能,据 Builder.io 团队的评价,”能找到真正难以发现的 Bug”。
另外,GPT-5 的推理效率比 Claude 高,同样的钱能跑更多请求。20 美元的 Codex 比 20 美元的 Claude Code 用起来更”宽裕”。
Claude Code 的优势
Claude Code 的核心差异在于可控性和深度。
Plan Mode 让你在 AI 动手之前审查计划。Subagents 和 Agent Teams 让你把复杂任务拆解成可管理的小块。自定义 Hooks 让你在 Agent 执行的每个环节插入检查点。
用一句话总结:Cursor 让你写代码更快,Codex 让你可以不在场,Claude Code 让你对 AI 的行为有最大的掌控力。
很多高产的开发者已经不做选择了。他们的日常是:
1 | 上午:Cursor 写功能,Tab 补全 + Composer 多文件编辑 |
多智能体的坑,也要说清楚
Agent Teams 很强大,但它不是银弹。用下来有几个真实的问题:
1. “哦,我的错” 现象
有团队反馈,Agent Teams 的 Teammate 有时候不严格遵守架构规范,写出来的代码技术上没问题,但不符合项目约定。你指出来,它会说”Oh my bad!”然后改,但这种来回消耗时间。
解决办法:写好 CLAUDE.md,把项目规范写清楚。Plan Mode 的输出质量和 CLAUDE.md 的质量成正比。
2. 协调开销
Agent 越多,通信越多,出现冲突的概率越大。超过 5 个 Teammate,收益明显递减。
3. 上下文压缩风险
长时间运行的 Agent Team 会触发上下文压缩。一旦压缩,Teammate 可能”忘记”之前的约定。
解决办法:保持任务范围小,频繁提交。别试图用一个 Agent Team 搞完整个项目。
4. 还是实验性功能
Agent Teams 目前是 Research Preview,有已知的会话恢复、任务协调和关闭行为方面的限制。生产环境慎用。
写在最后
回到标题的问题:要不要放弃 Cursor 和 Codex?
我的答案是:不要。
2026 年的赢家不是只用一个工具的人,而是知道什么场景用什么工具的人。
但如果你还没试过 Claude Code 的 Agent Teams,强烈建议你试一次。不是因为它能取代其他工具,而是因为它会改变你对”AI 编程”这件事的认知。
我自己试完之后,最大的感受不是”效率提升了多少”,而是意识到自己之前对 AI 的使用方式太保守了——一直把它当一个聪明的打字员,而不是一个可以分工协作的团队。这个认知盲区,比任何工具本身都值得注意。