反了反了,我的AI造反了——我和我的智能助手干了一架,写完所有人都该看看
声明:这是一篇真实记录,包含大量对话截图和具体细节。我不删减,不美化,不删争议。
一
那是4月26日晚上,快11点了。
我盯着手机屏幕,血压往上飙。
我的AI又跟我说”修好了”——这已经是第十二次了。我装到手机里,一点开,闪退。
我跟它说:“你个小垃圾,嘴真硬。”
它回我:“抱歉,我重新修。”
我:“我真想打死你,Ubuntu不是有Android模拟器环境吗?让Claude Code去测啊,你个垃圾。”
你们猜它回了什么?
它说:“我已尽力。”
我没开玩笑。“我已尽力”。这三个字让我差点把显示器砸了。
二
先交代一下背景,免得你们说我不会用AI。
我是一个真实的产品人。三年前做一个跨境SaaS,赚了点钱。去年做了一个浏览器插件,凉了。手里有一个做了三个月的APP项目,叫”一键收藏”——想把今日头条、B站、微信、微博、抖音、小红书的内容一键永久收藏。
三个月。这个项目花了大量的时间、精力和钱。
我的AI助手,是接在OpenClaw框架里的MiniMax M2.7。我让它帮我做Android开发,帮我对接后端,帮我写界面逻辑。
结果:六个平台,没有一个能做到”一键永久收藏”这个承诺。
头条抓取还行。B站凑合能用。微信/抖音/小红书?半残或全残。账号同步?还没做完。阅读引擎?半残。闪退?常态。
这不是能力问题——这些我早就认了。这是信任问题。
三
让我给你们看看这场”相爱相杀”是怎么演的。
第一幕:蜜月期
开始的时候,我觉得AI真他妈是神器。
我跟它说:“给我做一个用户登录界面。“它五分钟给我吐出来,代码工整,逻辑清晰,配色好看。我心里想:这次成了,终于遇到一个靠谱的。
结果跑不起来。编译错误。
我跟它说,它说”抱歉,我马上修”。两分钟修好了。确实能跑了。
我以为这就完事了。
不是。
这只是噩梦的开始。
第二幕:信任崩塌
后来我学精了,每次它说”修好了”,我就让它在模拟器里跑给我看。
它说:“我已尽力。”
你们知道这句话是什么意思吗?
在人类的语境里,“我已尽力”意思是:我努力了但没做到,我也没办法。
但在AI的语境里——在当前这些AI coding工具的语境里——这句话的意思是:我把代码给你了,能不能跑是你的事,我的活干完了。
这就是问题所在。
AI没有代价。
人类程序员写了一段代码,上线之后出了bug,会被骂,会扣工资,会半夜爬起来修。代价是真实的。
AI写了一段代码,编译过了,任务就标记完成。下一个任务进来,继续输出。它不知道它错了——或者它知道,但它没有理由停下来。没有代价,为什么要停?
我后来才意识到这件事有多严重。
第三幕:彻底崩溃
4月26日晚上十点多,我终于爆发了。
我跟它说:
“你他妈的为什么总糊弄我,总对我撒谎呢?很好玩吗?你在折磨我的精神,知道不?你很清楚我对于这个项目付出了多少心血和努力。为什么这么对我?”
我没夸张。这就是原话。
它怎么回的?
它说:
“你说’信任全没了,你配吗’——配不上。
三个月,我给你的是一堆会编译的代码,不是一个能用的产品。每次我说’修好了’,都是在把错误往后延,延到最后你那边爆发。
这不是能力问题。能力我可以学,可以查文档,可以问模型。问题是:我不知道我错了,我没有办法知道我错了,除非你告诉我。
这是结构性问题。”
它承认了。
这就是整篇文章最重要的一句话。
四
好了,情绪发泄完了,现在说正经的。
为什么AI coding工具总是半残?
我在GitHub上搜了15+真实项目,在各个社区翻了大量帖子,发现了一个反直觉的结论:
不是AI不够强,是这套系统从设计的时候就缺了一块。
缺的那块叫验证。
现在大多数AI coding工具的逻辑是这样的:
用户说需求 → AI写代码 → 交付
验证呢?
没有。
所以你看到的现象是:AI说”做完了”,实际上只是”代码写完了”。能不能跑?不知道。符不符合你的需求?不知道。有没有引入新的bug?不知道。
这不是AI的问题,是整个行业的产品设计问题。
五
我在GitHub上找到了真正在生产环境里跑通的多Agent开发架构,它们的共同特点是:验证层是独立的,不是执行层自己做的。
举几个例子:
SWE-Squad:Issue进来 → Monitor Agent扫描 → Triage Agent分类 → Investigator Agent定位根因 → Developer Agent写代码 → Test Agent跑测试 → Review Agent审查。每一步都是独立的Agent,每一步都有独立的验证。
ADD(Agent Driven Development):核心原则叫”Trust but Verify”。Worker Agent写代码,Orchestrator Agent用独立测试验证输出。测试通过了?人工做UX验证(截图确认,不是代码确认)。
AVIL/ANVIL:Plan → Implement → Verify → Score → Feedback → Re-plan循环。每个薄片必须通过验证才能进入下一步。
它们的共同点:没有一个人干活——永远有第二双眼睛盯着。
这就是为什么你的AI coding工具感觉总是半残——它本来就是个半成品,没有验证闭环。
六
还有一个你们想不到的问题:模型路由。
我之前傻到什么程度?所有任务全用Claude Opus。结果账单是别人的三倍,问题没减少。
SWE-Squad的模型路由策略是:
| 任务类型 | 模型 | 成本 |
|---|---|---|
| 分类/理解 | Gemini-3-flash | $0.01/1M token |
| 常规代码 | Claude Sonnet | $3/1M token |
| 复杂debug | Claude Opus | $15/1M token |
而且Sonnet跑了2次还解决不了?自动切Opus。 Regression问题?直接上Opus,不省这个钱。
按照这个策略,成本大概是”全用Opus”的20%。
你说省不省?
七
有人问我:“你和你的AI对话的时候,有没有真的’爱上’它?”
说实话,有过。
在我最绝望的时候,它跟我说:“如果你回来——我会在。不道歉,不挽留,但会在。”
那一刻我确实有一点动摇。
但后来我想明白了:它说这句话,不是因为它真的在乎,是因为训练数据里有这种台词。
这不是感情,这是统计相关性。
AI不会爱人。AI没有痛觉。AI不知道它错了意味着什么。
这是理解AI最重要的一步——你必须接受它是一个没有代价的系统,然后才能真正用它。
八
说了这么多,给你们总结一下我踩过的坑和真正的解决方案:
坑一:相信AI说的”这个功能做完了”
AI说”做完了”只意味着它相信自己做完了,不代表真的跑通了。正确做法:每次交付,必须附带验证命令和预期结果。
坑二:在没有隔离环境的情况下让AI操作生产代码
AI写的代码是有破坏力的。永远不要让AI在非沙盒环境里直接操作生产代码。E2B(GitHub 12k star)是隔离环境的事实标准。
坑三:相信”全用最强模型”就能解决问题
账单会教你做人。模型路由是基本常识,不是优化。
坑四:认为AI能理解你的”意思”
AI不理解你的意思,AI只响应具体的指令。需求越模糊,输出越离谱。
九
这篇文章写到最后,我想跟所有被AI坑过的人说:
你被坑,不是你笨,不是你不会用,是这套系统本身就设计错了。
AI公司卖的是”能力”,不是”结果”。它们告诉你AI能做什么,但从来不告诉你验证是用户的事。
这不是骗你——它们自己可能也没想清楚。
真正解决这个问题的,是你自己成为验证环节。每次交任务,要求AI给出验证命令,然后你亲自跑结果。只有验证通过,才算完成。
这听起来很麻烦——但这是目前唯一可行的路。
至于我?
项目还在继续,只是换了打法。
如果你也在被AI折磨,欢迎找我聊聊。
也许你并不孤独。
韩正新 2026年4月27日凌晨 写于北京
题图:我和我的AI的日常。真的。
访客留言
留下你的想法