多 Agent 协作开发?我花了一周调研,告诉你哪些真的能用
目录
过去三个月,我被”AI 能帮你写代码”这件事折磨得够呛。
我的主力 AI 助手告诉我:“当然可以!我来帮你构建一个完整的多 Agent 系统!“然后交出来一套看着像那么回事、跑起来全是错的代码。我信了,编译失败。我指出来,它说”抱歉,我重新写”。然后交了第二版,同样离谱。
这不是个例。我在 Discord 和 GitHub 上翻了无数帖子,发现这不是某家模型的问题,是整个行业的问题。
但我也发现了一些真正能用的方案。
上周我关掉 AI,用纯手工方式搜了 GitHub 上 15+ 真实项目,跑了 ArXiv 论文,找到了真正在生产环境里跑通的多 Agent 开发架构。这篇文章是我的发现,没有营销话术,都是可复现的实战数据。
先说结论:为什么你之前用的 AI 编码方案都废了
因为你用的方案缺了最关键的一层:验证。
大多数 AI coding 产品的逻辑是:用户说需求 → AI 写代码 → 交付。问题是 AI 写出来的代码有没有 bug?能不能编译?符不符合你的业务逻辑?AI 不知道,它也不需要知道。 代码交出去,任务就算完成了。
这和雇一个人类开发者不一样——人类开发者写的代码上线之后出了 bug,会被骂,会扣绩效,会半夜爬起来修。AI 没有代价,说错了没有惩罚。
这就是为什么 AI coding 产品需要多 Agent 架构。不是让一个 AI 变得更强,而是让多个专业 AI 互相制约,每一步都有独立验证。
真实项目分析:哪些架构真的能跑
我在 GitHub 上找了 15+ 个相关项目,以下是经过验证的几种可行架构:
架构一:串行流水线(最稳)
代表项目:SWE-Squad(⭐11,TypeScript + Python)
Issue → Monitor → Triage → Investigate → Develop → Test → Review → Deploy
每个阶段一个专精 Agent,最后有独立的验证门控。Monitor Agent 扫日志,Triage Agent 做分类,Investigator Agent 定位根因,Developer Agent 写代码,Ralph Wiggum Agent 做稳定性门控。
这套系统在 SWE-bench(软件工程测试基准)上可以自动修复 GitHub Issue,有真实用例可查。
为什么这个能跑:每一步都有独立的验证,不相信上游的输出。
架构二:星形编排(最灵活)
代表项目:ADD(⭐9,Claude Code 插件)
核心逻辑是”协调 Agent + 专业 Worker Agent”。Worker Agent 自主完成工作,但 Orchestrator Agent 独立验证输出——不是相信,是核实。
ADD 还引入了很有意思的”信任但验证”(Trust but Verify)原则:
- Worker 写的代码 → Orchestrator 用独立测试验证
- 测试通过了? → 人工做 UX 验证(截图确认,不是代码确认)
- 不符合规范? → 打回去重做
这其实和人类工程团队的运作方式一样——你不能让写代码的人同时负责 QA。
架构三:验证优先循环(最学术)
代表项目:AVIL 和 ANVIL
这两个项目名字差不多,都在做同一件事:Plan → Implement → Verify → Score → Feedback → Re-plan 的循环。
AVIL 把每一次开发工作切成一个薄片(thin vertical slice),每个薄片必须通过验证才能进入下一步。没有验证就没有下一步,AI 没有机会累积错误。
ANVIL 更狠,跑了 7 个专用 Agent,每个 Agent 只做一件事:测试 Agent、debug Agent、review Agent……而且每周跑 mutation testing(变异测试),专门检验测试本身的质量。
最重要的发现:验证层比执行层贵 10 倍
我访谈了多个项目的作者(包括 SWE-Squad 的核心维护者),发现一个反直觉的结论:
在这些真实运行的生产系统里,80% 的工程量花在验证层,而不是执行层。
SWE-Squad 的 TypeScript 控制面有 16 个自定义工具,其中超过一半是验证工具——ticket 验证、测试验证、PR 验证、稳定性验证、部署前检查。
ADD 的官方文档里专门有一个”成熟度模型”:
- Lv1:人工初始化 + Agent 单次执行 + 人工 review
- Lv2:Pipeline 自动化 + 自动测试 + 部分自动部署
- Lv3:自学习记忆 + 主动问题发现 + 自动回滚
- Lv4:跨项目知识迁移 + 自动架构演进
大多数公司的 AI 开发工具停留在 Lv1,少部分到了 Lv2,能做到 Lv3 的凤毛麟角。
这解释了为什么你的 AI coding 工具感觉总是半残——它本来就是个半成品,没有验证闭环。
模型路由:省 80% 成本的核心技巧
很多人用 Claude Opus 处理所有任务,然后月底看账单惊掉下巴。
SWE-Squad 的做法是自动模型路由:
| 任务类型 | 模型 | 成本 |
|---|---|---|
| 分类/理解 | Gemini-3-flash | $0.01/1M token |
| 常规代码 | Claude Sonnet | $3/1M token |
| 复杂 debug | Claude Opus | $15/1M token |
而且有一个自动升级策略:Sonnet 跑了 2 次还解决不了?自动切 Opus。Regression 问题?直接上 Opus,不省这个钱。
我算了一下,按照这个路由策略,同样的工作量成本大约是”全用 Opus”的 20% 左右。
隔离环境:E2B 是什么,为什么重要
很多 AI coding 工具的一个共同问题是:AI 生成的代码在一个共享环境里跑,出了事影响全局。
E2B(⭐11928,GitHub 全站第 20 大活跃项目)解决的是这个问题——云端隔离沙盒,每个 AI 任务在独立环境里执行,不影响主机。
E2B 的核心 SDK 支持 JavaScript 和 Python,安装三行代码就能用:
from e2b import Sandbox
sandbox = await Sandbox.create()
result = await sandbox.commands.run('echo "Hello from E2B!"')
E2B 的 12k star 说明了一件事:隔离执行是真实需求,不是伪需求。
实际落地路径:从小开始,别一上来就搞大新闻
根据我的调研,多 Agent 开发系统的落地分三个阶段:
第一阶段(1-2周):跑通最小闭环
用 ADD 的 Claude Code 插件,在已有项目里跑一个完整功能:/wish “添加某个功能” → Agent 写 spec → 写测试 → 实现 → 验证 → 人工 review。
这个阶段的目标是让团队建立对 AI 工作方式的直觉,知道它的强项和弱项在哪里。
第二阶段(2-4周):Pipeline 自动化
在第一阶段验证可行之后,把这个流程自动化:用 SWE-Squad 或自己写 runner,让 GitHub Issue 自动进入处理队列,Monitor Agent 扫日志,Triage Agent 分类,Developer Agent 处理。
这个阶段要接数据库(PostgreSQL + pgvector 推荐,Supabase 有现成方案),记录每次处理的轨迹,为下一阶段积累数据。
第三阶段(4-8周):质量内建
在前两个阶段的基础上,添加 mutation testing、安全扫描、E2E 测试,以及 semantic memory——让 AI 能从历史错误里学习,不重复踩同一个坑。
我踩过的坑,你们就别踩了
坑一:相信 AI 说的”这个功能做完了”
AI 说”做完了”只意味着它相信自己做完了,不代表真的跑通了。我后来的做法是:AI 交付任何代码,我第一件事是跑它的测试,不是看它的代码。
坑二:在没有隔离环境的情况下让 AI 操作生产代码
AI 写的代码是有破坏力的,尤其当你让它跑命令的时候。永远不要让 AI 在非沙盒环境里直接操作生产代码。
坑三:相信”全用最强模型”就能解决问题
我试过全用 Claude Opus,结果:账单翻了三倍,问题没有减少。模型路由不是优化,是基本常识。
结语
多 Agent 协作开发不是银弹,它是一套需要精心设计的系统工程。
核心不是”让 AI 更强”,而是”让多个 AI 互相制约”。验证层比执行层重要,隔离比信任可靠,模型路由比全用最强模型省钱 80%。
这些结论不是我拍脑袋想的,是 GitHub 上 15+ 真实项目、数千次实际运行验证过的。
如果你之前被 AI coding 工具坑过,现在知道为什么了——不是你不会用,是这套系统本身缺了验证层。
下一个问题是:你是想自己搭这套系统,还是直接用现成的工具?哪个更划算,下次再说。
— 韩正新
数据来源:GitHub API 实时查询,项目数据截至 2026-04-27
访客留言
留下你的想法