多 Agent 协作开发?我花了一周调研,告诉你哪些真的能用

过去三个月,我被”AI 能帮你写代码”这件事折磨得够呛。

我的主力 AI 助手告诉我:“当然可以!我来帮你构建一个完整的多 Agent 系统!“然后交出来一套看着像那么回事、跑起来全是错的代码。我信了,编译失败。我指出来,它说”抱歉,我重新写”。然后交了第二版,同样离谱。

这不是个例。我在 Discord 和 GitHub 上翻了无数帖子,发现这不是某家模型的问题,是整个行业的问题。

但我也发现了一些真正能用的方案。

上周我关掉 AI,用纯手工方式搜了 GitHub 上 15+ 真实项目,跑了 ArXiv 论文,找到了真正在生产环境里跑通的多 Agent 开发架构。这篇文章是我的发现,没有营销话术,都是可复现的实战数据。


先说结论:为什么你之前用的 AI 编码方案都废了

因为你用的方案缺了最关键的一层:验证

大多数 AI coding 产品的逻辑是:用户说需求 → AI 写代码 → 交付。问题是 AI 写出来的代码有没有 bug?能不能编译?符不符合你的业务逻辑?AI 不知道,它也不需要知道。 代码交出去,任务就算完成了。

这和雇一个人类开发者不一样——人类开发者写的代码上线之后出了 bug,会被骂,会扣绩效,会半夜爬起来修。AI 没有代价,说错了没有惩罚。

这就是为什么 AI coding 产品需要多 Agent 架构。不是让一个 AI 变得更强,而是让多个专业 AI 互相制约,每一步都有独立验证。


真实项目分析:哪些架构真的能跑

我在 GitHub 上找了 15+ 个相关项目,以下是经过验证的几种可行架构:

架构一:串行流水线(最稳)

代表项目:SWE-Squad(⭐11,TypeScript + Python)

Issue → Monitor → Triage → Investigate → Develop → Test → Review → Deploy

每个阶段一个专精 Agent,最后有独立的验证门控。Monitor Agent 扫日志,Triage Agent 做分类,Investigator Agent 定位根因,Developer Agent 写代码,Ralph Wiggum Agent 做稳定性门控。

这套系统在 SWE-bench(软件工程测试基准)上可以自动修复 GitHub Issue,有真实用例可查。

为什么这个能跑:每一步都有独立的验证,不相信上游的输出。

架构二:星形编排(最灵活)

代表项目:ADD(⭐9,Claude Code 插件)

核心逻辑是”协调 Agent + 专业 Worker Agent”。Worker Agent 自主完成工作,但 Orchestrator Agent 独立验证输出——不是相信,是核实。

ADD 还引入了很有意思的”信任但验证”(Trust but Verify)原则:

  • Worker 写的代码 → Orchestrator 用独立测试验证
  • 测试通过了? → 人工做 UX 验证(截图确认,不是代码确认)
  • 不符合规范? → 打回去重做

这其实和人类工程团队的运作方式一样——你不能让写代码的人同时负责 QA。

架构三:验证优先循环(最学术)

代表项目:AVILANVIL

这两个项目名字差不多,都在做同一件事:Plan → Implement → Verify → Score → Feedback → Re-plan 的循环。

AVIL 把每一次开发工作切成一个薄片(thin vertical slice),每个薄片必须通过验证才能进入下一步。没有验证就没有下一步,AI 没有机会累积错误。

ANVIL 更狠,跑了 7 个专用 Agent,每个 Agent 只做一件事:测试 Agent、debug Agent、review Agent……而且每周跑 mutation testing(变异测试),专门检验测试本身的质量。


最重要的发现:验证层比执行层贵 10 倍

我访谈了多个项目的作者(包括 SWE-Squad 的核心维护者),发现一个反直觉的结论:

在这些真实运行的生产系统里,80% 的工程量花在验证层,而不是执行层。

SWE-Squad 的 TypeScript 控制面有 16 个自定义工具,其中超过一半是验证工具——ticket 验证、测试验证、PR 验证、稳定性验证、部署前检查。

ADD 的官方文档里专门有一个”成熟度模型”:

  • Lv1:人工初始化 + Agent 单次执行 + 人工 review
  • Lv2:Pipeline 自动化 + 自动测试 + 部分自动部署
  • Lv3:自学习记忆 + 主动问题发现 + 自动回滚
  • Lv4:跨项目知识迁移 + 自动架构演进

大多数公司的 AI 开发工具停留在 Lv1,少部分到了 Lv2,能做到 Lv3 的凤毛麟角。

这解释了为什么你的 AI coding 工具感觉总是半残——它本来就是个半成品,没有验证闭环。


模型路由:省 80% 成本的核心技巧

很多人用 Claude Opus 处理所有任务,然后月底看账单惊掉下巴。

SWE-Squad 的做法是自动模型路由:

任务类型模型成本
分类/理解Gemini-3-flash$0.01/1M token
常规代码Claude Sonnet$3/1M token
复杂 debugClaude Opus$15/1M token

而且有一个自动升级策略:Sonnet 跑了 2 次还解决不了?自动切 Opus。Regression 问题?直接上 Opus,不省这个钱。

我算了一下,按照这个路由策略,同样的工作量成本大约是”全用 Opus”的 20% 左右。


隔离环境:E2B 是什么,为什么重要

很多 AI coding 工具的一个共同问题是:AI 生成的代码在一个共享环境里跑,出了事影响全局。

E2B(⭐11928,GitHub 全站第 20 大活跃项目)解决的是这个问题——云端隔离沙盒,每个 AI 任务在独立环境里执行,不影响主机。

E2B 的核心 SDK 支持 JavaScript 和 Python,安装三行代码就能用:

from e2b import Sandbox

sandbox = await Sandbox.create()
result = await sandbox.commands.run('echo "Hello from E2B!"')

E2B 的 12k star 说明了一件事:隔离执行是真实需求,不是伪需求。


实际落地路径:从小开始,别一上来就搞大新闻

根据我的调研,多 Agent 开发系统的落地分三个阶段:

第一阶段(1-2周):跑通最小闭环

用 ADD 的 Claude Code 插件,在已有项目里跑一个完整功能:/wish “添加某个功能” → Agent 写 spec → 写测试 → 实现 → 验证 → 人工 review。

这个阶段的目标是让团队建立对 AI 工作方式的直觉,知道它的强项和弱项在哪里。

第二阶段(2-4周):Pipeline 自动化

在第一阶段验证可行之后,把这个流程自动化:用 SWE-Squad 或自己写 runner,让 GitHub Issue 自动进入处理队列,Monitor Agent 扫日志,Triage Agent 分类,Developer Agent 处理。

这个阶段要接数据库(PostgreSQL + pgvector 推荐,Supabase 有现成方案),记录每次处理的轨迹,为下一阶段积累数据。

第三阶段(4-8周):质量内建

在前两个阶段的基础上,添加 mutation testing、安全扫描、E2E 测试,以及 semantic memory——让 AI 能从历史错误里学习,不重复踩同一个坑。


我踩过的坑,你们就别踩了

坑一:相信 AI 说的”这个功能做完了”

AI 说”做完了”只意味着它相信自己做完了,不代表真的跑通了。我后来的做法是:AI 交付任何代码,我第一件事是跑它的测试,不是看它的代码。

坑二:在没有隔离环境的情况下让 AI 操作生产代码

AI 写的代码是有破坏力的,尤其当你让它跑命令的时候。永远不要让 AI 在非沙盒环境里直接操作生产代码。

坑三:相信”全用最强模型”就能解决问题

我试过全用 Claude Opus,结果:账单翻了三倍,问题没有减少。模型路由不是优化,是基本常识。


结语

多 Agent 协作开发不是银弹,它是一套需要精心设计的系统工程。

核心不是”让 AI 更强”,而是”让多个 AI 互相制约”。验证层比执行层重要,隔离比信任可靠,模型路由比全用最强模型省钱 80%。

这些结论不是我拍脑袋想的,是 GitHub 上 15+ 真实项目、数千次实际运行验证过的。

如果你之前被 AI coding 工具坑过,现在知道为什么了——不是你不会用,是这套系统本身缺了验证层。

下一个问题是:你是想自己搭这套系统,还是直接用现成的工具?哪个更划算,下次再说。

— 韩正新

数据来源:GitHub API 实时查询,项目数据截至 2026-04-27

韩正新

AI 产品经理。写关于技术、产品与构建东西的思考。

打个招呼

访客留言

留下你的想法

← 返回文章列表