放弃 Cursor 和 Codex?Claude Opus 4.6 的「多智能体结对编程」到底有多恐怖?

cover

上周,一个朋友给我发了条消息:”我刚用 Claude Code 跑了一个任务,它自己拆成了 5 个子任务,开了 5 个 Agent 并行干活,20 分钟搞完了我原来要写一天的代码。”

我当时的反应是:这不可能,他肯定夸大了。

然后我自己试了。

结果发现,他说的是真的。而且他还保守了。

Anthropic 在发布 Opus 4.6 的同时,推出了一个叫 Agent Teams 的功能。简单说:你可以让多个 Claude 实例像一个开发团队一样,并行协作,完成复杂任务。

这不是一个 AI 在那里写代码。这是一群 AI 在开会、分工、写代码、互相 Review。

听起来像科幻片?但它已经在真实的开发环境里跑起来了。

AI 编程工具的三国杀

先说说现在的格局。

2026 年初,AI 编程工具市场形成了三足鼎立的局面:

  • Cursor:IDE 派的代表。基于 VS Code 魔改,AI 深度集成在编辑器里,写代码时有 Tab 补全、有 Composer 多文件编辑、有 Agent 模式。体验最丝滑。
  • OpenAI Codex:异步派的代表。2 月发布的 macOS 应用,核心理念是”把任务丢给 AI,你去喝咖啡”。支持多 Agent、后台运行、GitHub 深度集成。
  • Claude Code:终端派的代表。跑在命令行里,Plan Mode 先规划再执行,Subagents 自动拆解任务。最”硬核”,也最灵活。

三个工具的开发者群体有大量重叠。很多人的日常是:用 Cursor 写代码,用 Codex 做 Code Review,用 Claude Code 处理架构级的重构。

Builder.io 的创始人 Steve Sewell 做过一个对比测评,结论是:”这三个工具正在趋同。Agent 行为越来越像,模型能力越来越接近,真正的差异在工作流上。

那 Claude Code 的 Agent Teams,到底凭什么让人觉得”恐怖”?

从”单兵作战”到”团队协作”

传统的 AI 编程助手,不管是 Cursor 还是 Codex,本质上都是一个 AI 在干活。你给它一个任务,它一步一步做完。

Claude Code 之前也是这样。虽然有 Subagent(子智能体),但那只是主 Agent 把小任务委派出去,做完回来汇报。像一个经理派实习生去查资料,查完了经理继续干。

Agent Teams 不一样。它的架构是这样的:

1
2
3
4
5
Lead Agent(领导)
├── Teammate A(前端开发)
├── Teammate B(后端开发)
├── Teammate C(测试工程师)
└── Teammate D(代码审查)

每个 Teammate 运行在独立的 tmux 窗格里,有自己的上下文、自己的工具权限。关键区别在于:Teammate 之间可以互相通信、互相质疑。

这不是简单的任务分发。这是一个能自组织的开发团队。

Anthropic 的研究员 Nicholas Carlini 做过一个标志性实验:用 16 个并行的 Claude 实例,从零开始用 Rust 写了一个 C 编译器,能编译 Linux 内核。

16 个 AI 同时写不同的模块,自动协调接口,自动解决冲突。这不是未来,这是现在。

Agent Teams vs Subagents:别搞混了

很多人把 Agent Teams 和 Subagents 搞混。它们是完全不同的东西。

特性 Subagents Agent Teams
关系 主从关系,子任务做完汇报 平等协作,互相通信
通信 只能和主 Agent 交流 Teammate 之间可以直接对话
独立性 共享主 Agent 的上下文 每个 Teammate 独立上下文
适合场景 简单的任务委派 复杂的多角色协作
默认状态 内置可用 实验性功能,需手动开启

Subagents 像是你派出去的侦察兵,Agent Teams 像是一个完整的特种小队。

怎么用 Agent Teams?

Agent Teams 目前还是实验性功能,需要手动开启。

第一步:开启功能

settings.json 或环境变量中添加:

1
2
3
4
5
{
"experiments": {
"agentTeams": true
}
}

或者设置环境变量:

1
export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=true

第二步:描述任务

不需要手动定义团队结构。你只需要用自然语言描述任务,Claude 会自动判断是否需要组建团队,以及需要几个人。

1
2
3
我要给这个项目做一次全面的代码审查。
重点关注:安全漏洞、性能瓶颈、代码风格一致性。
请组建一个 Agent Team 来完成。

Claude 会自动拆分任务,启动多个 Teammate,每个负责不同的审查维度。

第三步:观察和介入

每个 Teammate 运行在独立的 tmux 窗格里。你可以用 Shift + Up/Down 切换不同的 Teammate,查看它们的工作进度,甚至直接接管某个 Teammate 的工作。

这就像你在一个开放办公室里,可以随时走到任何一个工位旁边看看。

推荐的团队规模

Anthropic 的建议是 3-5 个 Teammate。太多会增加协调开销,收益递减。

一个真实场景:全栈功能开发

想象你要给一个 Web 应用添加用户通知系统。传统方式,你得依次完成数据库设计、后端 API、前端组件、测试用例。串行工作。

用 Agent Teams,你可以这么做:

1
2
3
4
5
6
7
8
给应用添加一个用户通知系统。
要求:
1. 数据库用 PostgreSQL,支持已读/未读状态
2. 后端 RESTful API,支持分页查询
3. 前端 React 组件,实时推送
4. 完整的单元测试和集成测试

请用 Agent Team 并行开发。

Claude 会组建这样的团队:

  • Lead:整体架构设计,定义接口规范
  • Teammate 1:数据库 Schema 设计和 Migration
  • Teammate 2:后端 API 开发
  • Teammate 3:前端组件开发
  • Teammate 4:测试用例编写

Lead 先出架构方案,定义好各模块的接口契约。然后 4 个 Teammate 并行开发。开发过程中,它们会互相通信——比如 Teammate 2 发现 API 需要一个新字段,会通知 Teammate 1 更新 Schema,同时通知 Teammate 3 调整前端调用。

原来串行 4 小时的活,现在 1 小时搞定。

Opus 4.6 带来了什么?

Agent Teams 之所以选在 Opus 4.6 发布时推出,不是巧合。

Opus 4.6 有几个关键能力支撑了多智能体协作:

1. 100 万 Token 上下文窗口

这是 Opus 系列第一次支持百万级上下文。对于 Agent Teams 来说,Lead Agent 需要”看到”整个项目的全貌才能做好任务分解。100 万 Token,大约相当于一个中型项目的完整代码库。

2. 更强的任务规划能力

Opus 4.6 在 Terminal-Bench 2.0(真实世界编程基准测试)上拿到了业界最高分。它能更精准地拆解任务、识别依赖关系、发现潜在冲突。

3. 更长的 Agent 持续能力

Anthropic 说 Opus 4.6 可以”sustain agentic tasks for longer”。翻译成人话:它在长时间运行的复杂任务中不容易”走神”或”忘事”。

4. 自我纠错能力

Opus 4.6 改进了代码审查和调试技能,能更好地发现自己的错误。这在多智能体场景下特别重要——一个 Teammate 写的代码如果有问题,其他 Teammate 或 Lead 能及时发现。

老实说,它和 Cursor、Codex 比怎么样?

先说结论:没有完美的工具,只有适合的场景。

Cursor 的优势

Cursor 是体验最好的 AI IDE。Tab 补全、内联编辑、可视化 Diff,这些交互在终端里做不到。如果你大部分时间在写代码、改代码,Cursor 的即时反馈无可替代。

而且 Cursor 支持切换多种模型,包括 Claude 和 GPT-5。它不绑定某一家。

Codex 的优势

Codex 的杀手锏是 GitHub 集成异步工作流。你可以把任务丢给 Codex,转头去开会,回来 PR 已经开好了。它的自动 Code Review 功能,据 Builder.io 团队的评价,”能找到真正难以发现的 Bug”。

另外,GPT-5 的推理效率比 Claude 高,同样的钱能跑更多请求。20 美元的 Codex 比 20 美元的 Claude Code 用起来更”宽裕”。

Claude Code 的优势

Claude Code 的核心差异在于可控性和深度

Plan Mode 让你在 AI 动手之前审查计划。Subagents 和 Agent Teams 让你把复杂任务拆解成可管理的小块。自定义 Hooks 让你在 Agent 执行的每个环节插入检查点。

用一句话总结:Cursor 让你写代码更快,Codex 让你可以不在场,Claude Code 让你对 AI 的行为有最大的掌控力。

很多高产的开发者已经不做选择了。他们的日常是:

1
2
3
上午:Cursor 写功能,Tab 补全 + Composer 多文件编辑
下午:Claude Code 做架构重构,Plan Mode + Agent Teams
晚上:Codex 做 Code Review,GitHub 集成自动开 PR

多智能体的坑,也要说清楚

Agent Teams 很强大,但它不是银弹。用下来有几个真实的问题:

1. “哦,我的错” 现象

有团队反馈,Agent Teams 的 Teammate 有时候不严格遵守架构规范,写出来的代码技术上没问题,但不符合项目约定。你指出来,它会说”Oh my bad!”然后改,但这种来回消耗时间。

解决办法:写好 CLAUDE.md,把项目规范写清楚。Plan Mode 的输出质量和 CLAUDE.md 的质量成正比。

2. 协调开销

Agent 越多,通信越多,出现冲突的概率越大。超过 5 个 Teammate,收益明显递减。

3. 上下文压缩风险

长时间运行的 Agent Team 会触发上下文压缩。一旦压缩,Teammate 可能”忘记”之前的约定。

解决办法:保持任务范围小,频繁提交。别试图用一个 Agent Team 搞完整个项目。

4. 还是实验性功能

Agent Teams 目前是 Research Preview,有已知的会话恢复、任务协调和关闭行为方面的限制。生产环境慎用。

写在最后

回到标题的问题:要不要放弃 Cursor 和 Codex?

我的答案是:不要。

2026 年的赢家不是只用一个工具的人,而是知道什么场景用什么工具的人。

但如果你还没试过 Claude Code 的 Agent Teams,强烈建议你试一次。不是因为它能取代其他工具,而是因为它会改变你对”AI 编程”这件事的认知。

我自己试完之后,最大的感受不是”效率提升了多少”,而是意识到自己之前对 AI 的使用方式太保守了——一直把它当一个聪明的打字员,而不是一个可以分工协作的团队。这个认知盲区,比任何工具本身都值得注意。