编者按:当 AI Agent 从一次性 Prompt 和 vibe coding,进入更复杂的工作流阶段,真正重要的问题已经不再是「模型能不能完成任务」,而是「能否把 AI 能力沉…编者按:当 AI Agent 从一次性 Prompt 和 vibe coding,进入更复杂的工作流阶段,真正重要的问题已经不再是「模型能不能完成任务」,而是「能否把 AI 能力沉…

YC眼中的五种AI Agent核心形态

2026/05/20 19:23
阅读时长 19 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

编者按:当 AI Agent 从一次性 Prompt 和 vibe coding,进入更复杂的工作流阶段,真正重要的问题已经不再是「模型能不能完成任务」,而是「能否把 AI 能力沉淀为可复用、可积累的流程资产」。

本文从 Garry Tan 的 GBrain 出发,总结了当前许多人在使用 Codex、Claude Code、Hermes 等 Agent 工具时逐渐收敛出的五种核心形态:可参数化的 Skills、轻量执行框架 Thin Harness、负责路由的 Resolvers、区分模型判断与确定性代码的执行层,以及用于长期积累上下文的 Memory。

这些模块组合在一起,指向的是一种新的「过程能力」:把经验写成流程,把任务抽象成参数,把稳定规则交给代码,把判断和综合交给模型,再通过记忆层持续沉淀。相比一次性生成的应用或提示词,这种系统更难被复制,也更可能成为个人、小团队乃至公司在 AI 时代形成长期竞争优势的基础。

以下为原文:

我花了一些时间研究 Garry Tan 的 GBrain。作为一个非技术背景、也不在风投行业工作的人,我想提炼一下其中我看到的几种通用结构形态,以及它真正有意思的地方。

我认为,很多人正在逐渐收敛到同一组核心结构上。它们大概可以概括为 5 种形态,也代表了 Codex、Claude Code、Hermes、OpenClaw 等智能体式 AI 工具在使用方式上的自然演进方向。

相关阅读:《瘦 Harness,胖 Skill:100 倍 AI 生产力的真正来源》

Skills:从 SOP 到「方法调用」

Skills 几乎是所有人最自然的起点。即便没有人提醒,用户也会下意识去构建它,因为它的形态非常熟悉。我一开始把它理解为一种 SOP,也就是用于完成某件事的标准作业流程。用户提供「要做什么」,Skill 提供「怎么做」。

Tan 的理解是,Skill 更像是一次「方法调用」。在编程里,方法调用指的是用参数来调用某个程序流程。同一段代码每次都会运行,变化的是参数:什么数据、什么问题、什么目标。比如同一个 process_invoice 函数,可以处理系统里的每一张发票,而不只是它最初被写出来时对应的那一张。

Skill 也是类似的结构。一个名为 /investigate 的 Skill 可能包含七个固定步骤,这七个步骤不会变。变化的是参数:TARGET(调查对象是谁或是什么)、QUESTION(你想弄清楚什么)、DATASET(去哪里找信息)。把它指向一个医疗行业举报人案例,它就像一个研究分析师;把它指向 SEC 申报文件,它就像一个法务调查员。同一个文件、同样的七个步骤,差别由外部世界提供。

这和传统 SOP 是不同的。大多数 SOP 都是为某一个具体岗位或任务编写的,比如「处理应付账款」。每个使用场景对应一套流程。而 Skill 的抽象程度更高,同一套流程可以处理一类问题。一个设计良好的 Skill,可以完成几十份 SOP 的工作,因为具体案例的信息被从文档中抽离出来,转移到了参数里。具体到实际使用,有些 Skill 更接近 SOP,有些则更接近方法调用。

Thin Harness:模型是智能,Harness 是手脚

模型,比如 Opus、GPT-5.5 等,是原始智能;Harness,比如 Claude Code、Codex CLI、Hermes、OpenClaw,则是让模型真正「有手脚」的执行框架。它们负责循环执行、读写文件、管理上下文、执行安全约束。其核心代码大约只有 200 行。

Garry 提到,大多数人都会犯的一个错误是不断往 Harness 里塞更多东西,我自己也是这样。我最后积累了 100 个工具定义,以及一堆 MCP 服务器。结果是,上下文窗口被大量当前任务并不需要的工具说明占满。模型开始混淆到底该用哪个工具,延迟上升,准确率下降,最终形成所谓的「上下文腐化」。

Resolvers:用路由表解决上下文腐化

解决上下文腐化的方法,是建立一张路由表。Resolver 的作用是把「刚刚进来的任务类型 X」明确映射到「应该调用 Skill Y」。当你只有 5 个 Skill 时,你不需要 Resolver;但当你有 100 个 Skill 时,各种描述会变得模糊,模型很容易无法在正确时间调用正确的 Skill。Resolver 用明确规则替代了模糊的模式匹配。

Tan 还为文件运行了一套类似 Resolver 的机制:一张独立的路由表,用来决定某个 Skill 的输出应该落到文件系统中的哪个位置。这是同一种「审计—路由」结构,被应用到了另一个问题上。这样一来,输出就会稳定地进入正确文件夹,而不是放到模型临时猜测的位置。

Skillify 是他的另一个配套思路:它是一套质量循环,用来把一次性的 Skill 变成可长期复用的基础设施。Tan 描述的 10 步流程包括:契约定义、在适合的地方使用确定性代码、单元测试、集成测试、LLM-as-judge 评估、Resolver 条目、审计脚本、检查哪些 Skill 没有调用路径,以及端到端冒烟测试。测试标准很简单:如果你必须向模型重复问同一个问题两遍,那就是失败。

Latent vs. Deterministic:判断交给模型,确定性任务交给代码

需要认真区分哪些工作应该交给 LLM,哪些应该交给确定性系统。LLM 擅长判断、综合、模式识别和读懂言外之意;但它不擅长算术、组合优化,也不适合处理任何需要每次给出同一个答案的任务。LLM 本质上是概率性的,当确定性方案可以解决问题时,就不应该用 LLM。

大多数非技术背景的人,往往低估了确定性层的价值。大家的默认反应,是把所有事情都丢给模型。但如果某件事可以用确定性方式完成,那几乎就应该这样做。而且你不需要自己是程序员,因为模型可以替你写代码。真正需要训练的是一种纪律:每次都问自己,这件事能不能用代码稳定、低成本地完成?如果答案是可以,就让模型把那段代码写出来。

Memory:让系统真正可积累

要让系统有用,它必须具备某种形式的记忆。我还不确定最正确的形态是什么,现在很多人也在用不同方式构建:向量嵌入、语义相似度、知识图谱、混合存储等。Tan 的做法和我一样:就是一个 markdown 文件夹。

他的结构是:每个人一页、每家公司一页、每个概念一页。每一页顶部是「当前可信结论」,也就是随着新证据不断重写和更新的综合判断;底部则是一条只追加、不覆盖的时间线。

选择 markdown 会带来几个结果。首先,文件本身就是系统的主记录,而不是某种导出结果。你可以在 VS Code 里打开它、手动编辑它,Agent 会自动读取这些变化。其次,类型化关系,比如 works_at、invested_in、founded、attended、advises,会在每次写入时通过正则表达式自动抽取出来,因此知识图谱可以在不消耗 token 的情况下自行连接。这个具体 schema 很适合他的工作,但对其他人来说,可能需要根据自己的职业和业务场景重新定制。

此外,还有一个信号探测器在后台运行。某个人被提到一次,就会生成一个 stub 页面;如果他在多个来源中被提到三次,就会触发网页信息补全;一次会议结束后,则会运行完整流程。夜间的「dream cycle」会扫描对话、补全过时实体信息,并修复失效引用。基础层是文本,在此之上的所有东西都便宜、可组合。

底层当然还有更多细节,但我认为,这些就是其中最重要的轮廓,而且它们在相当程度上具有普适性。

我自己其实已经搭建了大约一半这样的架构。过去还没有达到必须引入真正 Resolver 的规模,但现在已经到了这个阶段,所以我刚刚做了一轮小重构,让自己的系统变得模型无关,并内置 Resolver。目前我还没有搭建的关键部分,是后台自动运行的信号探测器和夜间 dream cycle,也就是自动信息补全与整理机制,这是我接下来想尝试加入的部分。

我怀疑,不同构建者正在向类似结构收敛,本身就是一个信号:这种形态虽然未必适用于所有人,但总体上大概率是有用的。即便具体实现细节会有重要差异,但这种总体结构,正在被越来越多人独立摸索出来。

我最近一直在问自己的问题是:如何用 AI 建立可持续的竞争优势?

大家都对 vibe-coded 应用和一次性 prompt 很兴奋,这当然非常酷。我自己最开始也是这样玩起来的,并因此入坑。但任何可以通过一次性 prompt 构建出来的东西,它的均衡价格最终都会下降到构建它所需的 token 成本,也就是几美分。

比如有人复制了 MyFitnessPal,用一半价格出售并赚了 100 万美元,这当然很厉害。但很快就会有人再复制它,并以更低价格出售。这个循环会不断继续,直到利润空间被完全压缩。

真正可持续的东西,是某种「流程能力」。用 Hamilton Helmer《7 Powers》的框架来说,上面这套架构隐含的,正是 process power。

《7 Powers》提出,企业之所以能够长期维持高于市场平均水平的利润率,是因为它拥有七种结构性力量之一。任何没有扎根于这些力量的优势,最终都会被竞争侵蚀。

对中小企业和早期公司来说,Helmer 的七种力量中有五种基本是关上的门。规模经济需要规模;网络效应和转换成本可以建立,但需要先积累庞大的用户基础;独占资源通常意味着专利或类似资产,这并不是多数公司能够拥有的东西;品牌则通常需要十年时间积累,无法走捷径。

剩下的两种,是反定位和流程能力。

反定位指的是一种现有巨头无法模仿的商业模式,因为一旦模仿,就会伤害它自己的既有业务。这种机会有时存在,但并不总是可得。

于是,最现实的路径就剩下流程能力。而一个设计良好的 AI 系统,恰恰就是能够生成流程能力的工具。

这和建立高质量 SOP 或自研专有软件,本质上是同一种工作:流程被编码,案例被参数化,底层确定性系统快速且可靠,记忆层则不断承接过去学到的东西。它让「产品化服务」被进一步放大:你能够以更低成本或更高质量提供某种服务或产品,因为整个工作已经被结构化了。

想象一位会计师搭建了这样一套系统。记忆层是一个文件夹,每个客户都有一个 markdown 文件,里面包括当前可信结论,比如实体结构、年度税务立场、正在进行的审计,以及一条时间线,记录会议、决策和发生的变化。

她有一些 Skill,比如 /year-end-review、/quarterly-estimate、/audit-prep。同一套流程可以针对不同客户进行参数化执行。

她还有一个确定性层,包括税表、折旧表、IRS 文件、客户历史税表等。

再加上一套类似日志整理或 dream cycle 的机制。比如系统在夜间自动发现某位合伙人的 K-1 分配在没有策略变化的情况下下降了 40%;或者注意到某个客户的家庭办公室扣除结构,可以迁移到另一个客户身上,结构可以复用,但身份和隐私仍然留在原处。

这样一来,她可以收取少量溢价,每年服务更多客户,而竞争对手很难复制,因为这套结构并不是等她成功后才凭空出现的,而是从一开始就在持续积累。

从表面看,这个工具只是一个 markdown 文件夹。但每个文件里的每一行,背后都来自大量有意识的测试、搭建和迭代。真正形成竞争壁垒的,不是文件本身,而是这些文件所承载的流程能力。

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0.03456
$0.03456$0.03456
-0.94%
USD
Gensyn (AI) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

不懂K线也能赚?抄作业就够了

不懂K线也能赚?抄作业就够了不懂K线也能赚?抄作业就够了

3 秒复制大牛策略 ,自动开平仓,收益实时同步