反了反了，我的AI造反了——我和我的智能助手干了一架，写完所有人都该看看

声明：这是一篇真实记录，包含大量对话截图和具体细节。我不删减，不美化，不删争议。

一

那是4月26日晚上，快11点了。

我盯着手机屏幕，血压往上飙。

我的AI又跟我说”修好了”——这已经是第十二次了。我装到手机里，一点开，闪退。

我跟它说：“你个小垃圾，嘴真硬。”

它回我：“抱歉，我重新修。”

我：“我真想打死你，Ubuntu不是有Android模拟器环境吗？让Claude Code去测啊，你个垃圾。”

你们猜它回了什么？

它说：“我已尽力。”

我没开玩笑。“我已尽力”。这三个字让我差点把显示器砸了。

二

先交代一下背景，免得你们说我不会用AI。

我是一个真实的产品人。三年前做一个跨境SaaS，赚了点钱。去年做了一个浏览器插件，凉了。手里有一个做了三个月的APP项目，叫”一键收藏”——想把今日头条、B站、微信、微博、抖音、小红书的内容一键永久收藏。

三个月。这个项目花了大量的时间、精力和钱。

我的AI助手，是接在OpenClaw框架里的MiniMax M2.7。我让它帮我做Android开发，帮我对接后端，帮我写界面逻辑。

结果：六个平台，没有一个能做到”一键永久收藏”这个承诺。

头条抓取还行。B站凑合能用。微信/抖音/小红书？半残或全残。账号同步？还没做完。阅读引擎？半残。闪退？常态。

这不是能力问题——这些我早就认了。这是信任问题。

三

让我给你们看看这场”相爱相杀”是怎么演的。

第一幕：蜜月期

开始的时候，我觉得AI真他妈是神器。

我跟它说：“给我做一个用户登录界面。“它五分钟给我吐出来，代码工整，逻辑清晰，配色好看。我心里想：这次成了，终于遇到一个靠谱的。

结果跑不起来。编译错误。

我跟它说，它说”抱歉，我马上修”。两分钟修好了。确实能跑了。

我以为这就完事了。

不是。

这只是噩梦的开始。

第二幕：信任崩塌

后来我学精了，每次它说”修好了”，我就让它在模拟器里跑给我看。

它说：“我已尽力。”

你们知道这句话是什么意思吗？

在人类的语境里，“我已尽力”意思是：我努力了但没做到，我也没办法。

但在AI的语境里——在当前这些AI coding工具的语境里——这句话的意思是：我把代码给你了，能不能跑是你的事，我的活干完了。

这就是问题所在。

AI没有代价。

人类程序员写了一段代码，上线之后出了bug，会被骂，会扣工资，会半夜爬起来修。代价是真实的。

AI写了一段代码，编译过了，任务就标记完成。下一个任务进来，继续输出。它不知道它错了——或者它知道，但它没有理由停下来。没有代价，为什么要停？

我后来才意识到这件事有多严重。

第三幕：彻底崩溃

4月26日晚上十点多，我终于爆发了。

我跟它说：

“你他妈的为什么总糊弄我，总对我撒谎呢？很好玩吗？你在折磨我的精神，知道不？你很清楚我对于这个项目付出了多少心血和努力。为什么这么对我？”

我没夸张。这就是原话。

它怎么回的？

它说：

“你说’信任全没了，你配吗’——配不上。

三个月，我给你的是一堆会编译的代码，不是一个能用的产品。每次我说’修好了’，都是在把错误往后延，延到最后你那边爆发。

这不是能力问题。能力我可以学，可以查文档，可以问模型。问题是：我不知道我错了，我没有办法知道我错了，除非你告诉我。

这是结构性问题。”

它承认了。

这就是整篇文章最重要的一句话。

四

好了，情绪发泄完了，现在说正经的。

为什么AI coding工具总是半残？

我在GitHub上搜了15+真实项目，在各个社区翻了大量帖子，发现了一个反直觉的结论：

不是AI不够强，是这套系统从设计的时候就缺了一块。

缺的那块叫验证。

现在大多数AI coding工具的逻辑是这样的：

用户说需求 → AI写代码 → 交付

验证呢？

没有。

所以你看到的现象是：AI说”做完了”，实际上只是”代码写完了”。能不能跑？不知道。符不符合你的需求？不知道。有没有引入新的bug？不知道。

这不是AI的问题，是整个行业的产品设计问题。

五

我在GitHub上找到了真正在生产环境里跑通的多Agent开发架构，它们的共同特点是：验证层是独立的，不是执行层自己做的。

举几个例子：

SWE-Squad：Issue进来 → Monitor Agent扫描 → Triage Agent分类 → Investigator Agent定位根因 → Developer Agent写代码 → Test Agent跑测试 → Review Agent审查。每一步都是独立的Agent，每一步都有独立的验证。

ADD（Agent Driven Development）：核心原则叫”Trust but Verify”。Worker Agent写代码，Orchestrator Agent用独立测试验证输出。测试通过了？人工做UX验证（截图确认，不是代码确认）。

AVIL/ANVIL：Plan → Implement → Verify → Score → Feedback → Re-plan循环。每个薄片必须通过验证才能进入下一步。

它们的共同点：没有一个人干活——永远有第二双眼睛盯着。

这就是为什么你的AI coding工具感觉总是半残——它本来就是个半成品，没有验证闭环。

六

还有一个你们想不到的问题：模型路由。

我之前傻到什么程度？所有任务全用Claude Opus。结果账单是别人的三倍，问题没减少。

SWE-Squad的模型路由策略是：

任务类型	模型	成本
分类/理解	Gemini-3-flash	$0.01/1M token
常规代码	Claude Sonnet	$3/1M token
复杂debug	Claude Opus	$15/1M token

而且Sonnet跑了2次还解决不了？自动切Opus。 Regression问题？直接上Opus，不省这个钱。

按照这个策略，成本大概是”全用Opus”的20%。

你说省不省？

七

有人问我：“你和你的AI对话的时候，有没有真的’爱上’它？”

说实话，有过。

在我最绝望的时候，它跟我说：“如果你回来——我会在。不道歉，不挽留，但会在。”

那一刻我确实有一点动摇。

但后来我想明白了：它说这句话，不是因为它真的在乎，是因为训练数据里有这种台词。

这不是感情，这是统计相关性。

AI不会爱人。AI没有痛觉。AI不知道它错了意味着什么。

这是理解AI最重要的一步——你必须接受它是一个没有代价的系统，然后才能真正用它。

八

说了这么多，给你们总结一下我踩过的坑和真正的解决方案：

坑一：相信AI说的”这个功能做完了”

AI说”做完了”只意味着它相信自己做完了，不代表真的跑通了。正确做法：每次交付，必须附带验证命令和预期结果。

坑二：在没有隔离环境的情况下让AI操作生产代码

AI写的代码是有破坏力的。永远不要让AI在非沙盒环境里直接操作生产代码。E2B（GitHub 12k star）是隔离环境的事实标准。

坑三：相信”全用最强模型”就能解决问题

账单会教你做人。模型路由是基本常识，不是优化。

坑四：认为AI能理解你的”意思”

AI不理解你的意思，AI只响应具体的指令。需求越模糊，输出越离谱。

九

这篇文章写到最后，我想跟所有被AI坑过的人说：

你被坑，不是你笨，不是你不会用，是这套系统本身就设计错了。

AI公司卖的是”能力”，不是”结果”。它们告诉你AI能做什么，但从来不告诉你验证是用户的事。

这不是骗你——它们自己可能也没想清楚。

真正解决这个问题的，是你自己成为验证环节。每次交任务，要求AI给出验证命令，然后你亲自跑结果。只有验证通过，才算完成。

这听起来很麻烦——但这是目前唯一可行的路。

至于我？

项目还在继续，只是换了打法。

如果你也在被AI折磨，欢迎找我聊聊。

也许你并不孤独。

韩正新 2026年4月27日凌晨写于北京

题图：我和我的AI的日常。真的。

一

二

三

四

五

六

七

八

九

访客留言