Claude Code + Agent Teams:软件开发进入"组织级 AI"时代

你有没有想过,写代码这件事,可能越来越像打《星际争霸》?
不是开玩笑。Boris Cherny,Claude Code 的创造者,现在每天的工作状态是这样的:打开 5 个终端窗口,每个窗口里跑一个 Claude Code agent。一个在写新功能,一个在修 bug,一个在跑测试,一个在写文档,一个在做 code review。
他不写代码。他指挥 AI 写代码。
一天产出 20-30 个 PR。
这不是未来。这是 2026 年 3 月,正在发生的事情。而随着 Claude Code Agent Teams 的发布,这件事从”个人技巧”变成了”组织能力”。
从一个被拒的 PR 说起
Boris Cherny 加入 Anthropic 之前,在 Meta 当了五年 Principal Engineer,是公司里最高产的工程师之一。
加入 Anthropic 后,他写了第一个 PR。代码很干净,逻辑很清晰,测试很完整。
被拒了。
原因不是代码有问题。原因是——这代码是手写的。
在 Anthropic 内部,基线预期是:代码由 AI 生成。人类工程师的工作不是打字,是做判断。
这个被拒的 PR 成了催化剂。Boris 开始重新思考软件开发的基本流程,最终发展出了他所说的”指挥家模式”。
指挥家模式:从打字员到指挥家
传统的开发流程是这样的:想清楚→写代码→跑测试→调试→提 PR。一个人,一条线,从头到尾。
Boris 的工作流完全不同。
他同时开 5 个终端,每个终端里是一个独立的 Claude Code 实例,工作在不同的 Git 分支上:
1 | [tab 1] Claude Code — feature/auth-refresh → 执行中 |
当 agent 1 在执行时,他切到 agent 2 查看结果。当 agent 2 在思考时,他给 agent 3 下达新任务。就像一个指挥家,手里不拿乐器,但脑子里装着整首曲子的结构。
工程师的工作从”实现”变成了”判断”——定义正确输出的形状,在 agent 需要决策时做出选择。
在 Anthropic 内部,大约 80% 的代码现在由 Claude Code 编写。
Agent Teams:从个人模式到组织模式
Boris 的工作流虽然强大,但有一个问题——它依赖个人的操作技巧。5 个 agent 之间不能直接通信,所有协调都要通过人来完成。
Agent Teams 解决了这个问题。
随着 Opus 4.6 发布,Anthropic 推出了 Agent Teams 这个实验性功能。它让多个 Claude Code 实例组成一个真正的团队,有分工、有沟通、有协作。
具体怎么工作?四个核心组件:
| 组件 | 功能 |
|---|---|
| Team Lead | 主 Claude Code 会话,负责创建团队、分配任务、综合结果 |
| Teammates | 独立的 Claude Code 实例,各有自己的上下文窗口 |
| 共享任务列表 | 所有 agent 可见的中央工作队列,支持状态追踪和依赖管理 |
| 邮箱系统 | agent 之间直接通信的消息机制 |
关键区别在于:之前的 subagent 模式是”辐射状”的——所有信息都要通过主 agent 中转。Agent Teams 是”网状”的——任何 teammate 可以直接跟任何 teammate 对话。
打个比方:subagent 像是你分别派了几个外包,他们各干各的,只跟你汇报。Agent Teams 像是你组了一个项目组,大家坐在同一个办公室里,随时可以互相讨论。
真实场景:Agent Teams 能干什么
听起来很炫,但实际效果如何?
场景一:跨层重构
你要重构一个功能,涉及前端 React 组件、后端 API、数据库迁移和测试。传统方式:一个人从头做到尾,至少两天。
Agent Teams 的做法:Team Lead 分析任务,生成 3 个 Teammate——前端 agent 改 React 组件,后端 agent 改 API 和数据库,测试 agent 写集成测试。三个 agent 并行工作,通过消息系统协调接口约定。
20 分钟内完成,人类只需要最终 review。
场景二:架构决策
有开发者尝试了一个很有意思的架构:两个 agent,一个”架构师”,一个”魔鬼代言人”。架构师负责系统设计——组件边界、数据模型、API 约定。魔鬼代言人的唯一工作就是挑毛病、找风险。
在任何代码被写出来之前,通过两个 agent 的辩论,把设计问题提前暴露出来。这比传统的设计评审会效率高太多了。
场景三:多假设调试
生产环境出了一个诡异的 bug。你不确定是网络问题、缓存问题还是并发问题。
传统做法:一个一个假设排查,可能要花半天。
Agent Teams 做法:同时 spawn 3 个 Teammate,每个追查一个假设方向,互相分享发现,互相推翻对方的假设。DevOps 场景下的测试数据显示,多 agent 方式的可行建议率达到 100%,而单 agent 只有 1.7%。
质量怎么保证?
80% 的代码由 AI 写,质量能行吗?
Boris 的答案是四层防线:
第一层:agent 自测。 Claude Code 自己写测试、自己跑测试,在提交前完成自验证。
第二层:Best of N 审查。 一个 PR 打开后,多个 review agent 独立并行审查,从不同角度评估代码质量。一个去重 agent 综合结果。这一层能捕获大约 80% 的低级 bug。
第三层:动态 lint。 当某类错误反复出现,Boris 不是写一个 ticket。他让 Claude 写一条 lint 规则,从源头阻止这类问题。质量系统本身也是 AI 生成的,而且在自我进化。
第四层:人类终审。 所有进入生产环境的 PR,仍然需要人类工程师签字。不是因为自动化不够好,而是因为责任和判断属于人。
人没有被移出循环。人在循环中的位置变了——从写代码的人变成了做最终判断的人。
这不只是效率提升,是范式转换
很多人把 Agent Teams 理解为”更快的开发工具”。这种理解太浅了。
Gartner 预测,到 2028 年,33% 的企业软件将包含 Agentic AI。CIO 杂志说得更直接:”2026 年的工程师会花更少的时间写基础代码,花更多的时间编排 AI agent 的动态组合。”
这里发生的是一个根本性的转变:
AI 编程工具经历了三个阶段:
- 补全阶段(2022-2024):帮你打字更快,本质上是高级自动完成
- 助手阶段(2024-2025):能理解上下文、写函数、做解释,但仍然是一问一答
- 组织阶段(2026-):多个 agent 组成团队,有角色分工、有通信机制、有任务管理,能自主协作完成复杂项目
从第二阶段到第三阶段,不是量的变化,是质的飞跃。就像从一个人用 Excel 到用 ERP 系统——工具的复杂度上了一个台阶,但解决问题的维度也完全不同了。
微软也注意到了这个趋势。他们在 2026 年 3 月把 Claude Cowork 背后的技术集成进了 Microsoft 365 Copilot,推出了 Copilot Cowork。这不是巧合——当 AI 从个人工具变成组织基础设施,每一个巨头都会入场。
对工程师意味着什么
Boris Cherny 说了一句让我印象很深的话:
“智识谦逊比过去的经验更重要。”
他自己也承认,六个月前尝试过但放弃的方案,到了现在可能已经可行了。模型能力在以超出所有人预期的速度进步。
这意味着什么?
正在贬值的技能:
- 特定框架的深度经验(AI 可以在几小时内用另一个框架重写前端)
- 语法记忆和模板代码编写能力
- “从头到尾自己写”的执行力
正在升值的技能:
- 系统性调试:能形成假设并高效缩小排查范围
- 跨领域广度:全栈技术深度 + 商业/设计/产品嗅觉
- 上下文切换能力:同时管理 5 个 agent,不丢状态
- 架构判断力:知道什么该让 agent 做,什么该自己把关
你可以现在就开始
Agent Teams 目前还是实验性功能,但核心能力已经可用。
第一步:先学会并行 agent 工作流。 不需要 Agent Teams,打开 5 个终端,每个跑一个 Claude Code,练习在它们之间切换和分配任务。习惯”指挥”而不是”动手”。
第二步:尝试 builder-validator 模式。 用一个 agent 写代码,另一个 agent 审查代码。这是最简单的多 agent 协作,但效果立竿见影。
第三步:开启 Agent Teams。 设置环境变量,在复杂任务中尝试 Team Lead + Teammates 模式。从跨层重构或多假设调试这类天然适合并行的任务开始。
关键心态: 像 Boris 说的,不要试图把 AI 放在盒子里。给它工具,给它自主权,然后退后一步。你的价值不在于写出每一行代码,而在于知道应该写什么、为什么写、以及写出来之后怎么验证。
写在最后
Boris Cherny 用了一个历史类比:我们就像 15 世纪的抄写员,刚刚遇到了古腾堡的印刷机。
抄写员并没有消失。抄写这个功能——对文本的仔细、专业处理——变成了作家、编辑和出版商的基础。印刷机没有缩小识字率的市场,它让识字率爆炸式增长。
软件开发也是一样。AI 不会让工程师消失。它会让”能做软件”的人群爆炸式增长。在 Anthropic 内部,几乎 100% 的非工程师现在都在用 Claude Code 构建自己的工具和工作流。
蛋糕在变大。问题是,你在更大的蛋糕里扮演什么角色。
你已经开始用多 agent 工作流了吗?还是觉得管理一个 agent 都够呛?欢迎在评论区分享你的真实体验。