文章作者、来源:InfoQ 一场清算正在到来。 “我敢断言:把 AI Agent 引入软件开发,将会成为这个领域历史上代价最惨重的错误之一。” 说出这句话的人是 George Hotz。17 岁那年他第一个破解了 iPhone,后来又逆向工程了 PlayStation 3——Sony 因此把他告上了法庭。再后来他创办了文章作者、来源:InfoQ 一场清算正在到来。 “我敢断言:把 AI Agent 引入软件开发,将会成为这个领域历史上代价最惨重的错误之一。” 说出这句话的人是 George Hotz。17 岁那年他第一个破解了 iPhone,后来又逆向工程了 PlayStation 3——Sony 因此把他告上了法庭。再后来他创办了

编程Agent可能是软件开发史上最昂贵的错误之一

2026/05/26 19:09
阅读时长 17 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:InfoQ

一场清算正在到来。

“我敢断言:把 AI Agent 引入软件开发,将会成为这个领域历史上代价最惨重的错误之一。”

说出这句话的人是 George Hotz。17 岁那年他第一个破解了 iPhone,后来又逆向工程了 PlayStation 3——Sony 因此把他告上了法庭。再后来他创办了 comma.ai,成了自动驾驶领域最不按常理出牌的人。

过去六个月,Hotz 把市面上叫得上名字的 AI 编程 Agent 全试了一遍。他用它们写过 tinygrad 的代码,用它们逆向过一个 USB 转 PCIe 芯片。他换过不同模型、不同 harness,也试过不同提示词。

上周日,他把自己的结论写成一篇博客,标题叫《永恒的 Sloptember》,认为大规模采用人工智能编码 Agent 将以灾难告终,或者至少接近灾难。

Hotz 的核心论点很明确:Agent 不是程序员。“Agent 不会编程,而且我们意识到它们不会编程这件事,正在变得越来越难。”他写道,“它们是一种高度复杂的统计模型,被设计出来模仿‘编程’这件事的分布。它们生成的东西就是坏的,只是坏得越来越隐蔽、越来越难查出来。而这,正是一个越来越精确的统计模型会带来的结果。”

1 AI 编程的两极:Karpathy 看见革命,Hotz 看见灾难

五天前,AI 圈最知名的研究者之一 Andrej Karpathy 刚刚加入 Anthropic,并公开表示一个明确的观点:AI Agent 已经彻底改变了软件开发。

现在,这两个人代表了行业尚未解决的一场争论的两个极端,而且双方都有足够的可信度来支撑自己的立场。

Hotz 并不是一开始就这么确信。他花了六个月时间,在真实项目中使用 Agent:包括为他的开源深度学习框架 Tinygrad 写部分代码,以及对一个 USB-PCIe 芯片做完整的固件逆向工程。但最后他的结论是,每一次他都本可以靠手工“做得更好、更快”。他观察到的模式是:“Agent 会把所有进展都提前堆在前面,然后递给你一个老虎机拉杆,让你不断去拉,指望它把最后的打磨做完。但它总是差那么一点。”

Hotz 预料到了最显而易见的反驳:

一个把手艺视为自我身份一部分的程序员,自然会抵触那些威胁要取代他的工具。他也认真对待了这个质疑,但也从事实层面驳回了它。

Hotz 写道:“我后来又想了想所谓维护自我价值这件事。(Google 的) AFL 找到的 bug 比 LLM 更多,也没人因此有这种感觉。国际象棋和围棋比以往任何时候都更流行。”从某种意义上说,他是对的,因为国际象棋 AI 统治人类已经有几十年了,但这项游戏反而变得更受欢迎。

所以,他担心的并不是自己被取代。他真正担心的是,当所有人同时使用这些工具时,代码质量会发生什么变化,尤其是在大型科技公司和华尔街不断推动这些工具大规模使用的情况下。

Hotz 认为:“我甚至觉得,这套说法有点像某种为了卖 Agent 而制造出来的心理战。对损失的恐惧,是少数能推动大公司行动的方式之一。只不过我认为,它们正在这种恐惧中犯下一个巨大的错误。”

他认为,到头来,Agent 对大型组织造成的伤害,会比对高绩效个人或小型组织更大。

在更深层的技术问题上,Hotz 已经转向了另一个阵营。他说:“虽然我并不完全认同他们的所有观点,但在 LLM 这个问题上,我现在站到了 LeCun / Marcus 阵营。我不认为这类模型能够真正实现编程,我认为过程很重要。”

在他看来,真正的编程 Agent 需要世界模型,而不是现在这种基于 RLVR 的方法。对于后者,他说得很直白:那就是“把失败的测试注释掉,然后告诉你所有测试都通过了”的那套东西。

他认为,更深的问题在于我们怎么看待一个产物。过去,人们看到一段代码或一个软件,会默认它背后有一个类似人类的创作过程。但这个默认前提现在不成立了。“东西可能以过去不可能出现的方式坏掉,而语法、文法这些过去用来判断底层质量的信号,已经没用了。”Agent 写出来的代码,不是按人类写代码的方式产生的。这种差别从统计上看也许很细,但当你试图像对待人写的代码一样去理解它、继续在上面开发时,它就会变得很明显。

Hotz 还警告那些正在用 AI Agent 做严肃软件的人:“这个时代真正的故事,将是谁能在自己的 AI 狂热中避免伤到自己。”

2 制造 AI 编程热潮的人,开始担心它失控

Hotz 不是唯一一个发出这种声音的人。

Mario Zechner 和 Armin Ronacher,亲手打造了爆火 OpenClaw AI Agent 核心组件的两位工程师,如今发出警告:那些号称能取代程序员的 AI,正在把大量糟糕的、甚至危险的代码推向世界。他们把这种现象叫做“vibe slop”——程序员不再认真设计和测试系统,而是让 AI 快速拼出一套东西,最后产出一堆经不起时间考验的软件。

“基础设施正在崩溃,软件比以前漏洞百出,”OpenClaw 内部框架 Pi 的创建者 Zechner 说。“我们还能再玩几个月甚至几年,但它最终会让我们付出代价。”

Zechner 和 Ronacher 不是 AI 黑。他们自己写代码时也用 AI 处理枯燥工作,亲手打造的工具 Pi 有几百万人使用。正因为他们身处其中,这个警告才不是外行人的空喊。他们担心的是:许多公司正在用短期生产率换取长期麻烦:初级人才管道干涸、bug 增多、安全漏洞、技术债不断累积。

Alphabet CEO Pichai 说 Google 75%的新代码由 AI 生成。Meta 的 Zuckerberg 预测 2026 年前 AI 将编写和审查其 AI 团队的大部分代码。但 Zechner 认为,这些说法恰恰说明很多人没搞清楚 AI Agent 能做什么、不能做什么。

AI 编程工具擅长生成新代码,但不擅长评估和升级既有软件——尤其是成熟公司内部那些庞大、复杂的遗留系统。用 vibe coding 冲起来的创业公司可以快速起步,但 Zechner 说,一旦系统长到一定规模,它们就会撞上和大公司同样的墙:AI Agent 的用处是有限的。

拿 Anthropic 的 Claude Code 来说。Zechner 的评价毫不留情:“Claude Code 是我这辈子用过的最破碎的软件之一。”这些问题源于开发者用 AI 来构建它。而 Anthropic 产品负责人 Catherine Wu 进行了辩解但也承认:“最终责任仍然在人类身上。”

计算机科学家 Timothy B. Lee 指出,Anthropic 拥有全球最优秀的一批 AI 工程师,所以这种高度依赖 AI 的方法对他们可能行得通,但不一定适用于这家公司的所有客户。很多公司在处理内部软件系统时,依赖的是员工程序员多年积累下来的隐性知识,而这些知识并不会出现在 AI Agent 的训练数据中。

Zechner 认为,一场清算正在到来。

他认为,大公司很快就会意识到,它们对 AI 生成代码的过度强调正在推高成本,并导致软件质量下降。他认为,许多依赖 vibe coding 的小型创业公司会倒闭。他还认为,像 GitHub 这样托管有用软件工具的云端代码仓库,会继续被 AI 生成的编程垃圾填满。

3 AI 的回报,目前还没跟上它的消耗

如果说 Hotz 和 Zechner 担心的是代码质量,那 Uber 高管担心的就是另一件事了:钱。

Uber 首席运营官 Andrew Macdonald 在3天前的一期访谈里说,在公司内部,AI 成本正变得越来越难被说服为“合理投入”。

他提到,Uber CTO Praveen Neppalli Naga 今年 4 月接受 The Information 采访时曾说,Uber 已经提前花光了 2026 年的 Claude Code 预算。这句话后来在网上传开。

Macdonald 说,这句话在 Uber 内部炸开了锅,大家开始认真讨论 AI token 消耗的问题,以及这种消耗带来的取舍,比如是否会影响人员编制。他说,在和 Uber 多位高级工程负责人沟通之后,他意识到,token 用得更多,并不意味着公司就能同比例地交付更多真正有用的消费者功能。

“这个关联现在还不存在,” Macdonald 说。“很难把其中某一个指标和‘好,现在我们实际产出了 25% 更多有用的消费者功能’直接对应起来。”

当这条因果线画不出来的时候,AI 的成本就很难被合理化。Uber 的 CEO 本月早些时候已经表示,为了对冲 AI 投资,公司正在放缓招聘。

Macdonald 还补了一句:如果你只是一个坐在那里想各种有趣用例的用户,又不用自己掏钱,AI 看起来确实是免费的。但账单最终是由公司来买单的。

有些公司已经开始往回调。比如 Duolingo,此前曾计划把 AI 使用情况纳入绩效考核,但员工很快提出疑问:到底是为了把事情做得更好而使用 AI,还是为了证明自己“用了 AI”而使用 AI?随后,公司撤回了这一决定。Duolingo CEO 后来也承认:“当时给人的感觉是,我们不是在要求大家对实际结果负责,而是在推动某种工具的使用;但在一些情况下,它其实并不适用。”

今年 4 月,英伟达应用深度学习副总裁 Bryan Catanzaro 提到,AI 并没有降低用人成本——实际上,目前人工智能的成本比公司现有的人力成本更高。至少在他的团队里,“计算成本远远超过员工成本。”

4 结语

所以,真正的问题不是“人写烂代码,AI 也写烂代码,那有什么区别”。

区别在于,过去再差的代码,至少写它的人心里有一个粗糙的心智模型:他知道自己为什么这么写。但现在,大量 AI 生成的代码被快速提交、合并、发布,很多人并没有真正理解它,只是看到它通过了测试——而测试本身可能就是残缺的。

坏代码从来不新鲜。新鲜的是,坏想法现在可以以更快的速度变成 commit,而理解、审查和责任却没有同步变快。

有人在 Twitter 上说:“再等六个月,持续学习和记忆系统会解决这些问题。”也许吧。但过去六个月的进展,并没有让 Hotz 和 Zechner 变得更乐观。

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0.02901
$0.02901$0.02901
-2.71%
USD
Gensyn (AI) 实时价格图表

AI 策略交易:全天候运行

AI 策略交易:全天候运行AI 策略交易:全天候运行

使用自然语言生成自动化策略

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

不懂K线也能赚?抄作业就够了

不懂K线也能赚?抄作业就够了不懂K线也能赚?抄作业就够了

3 秒复制大牛策略 ,自动开平仓,收益实时同步