编者按：当 AI Agent 从一次性 Prompt 和 vibe coding，进入更复杂的工作流阶段，真正重要的问题已经不再是「模型能不能完成任务」，而是「能否把 AI 能力沉…编者按：当 AI Agent 从一次性 Prompt 和 vibe coding，进入更复杂的工作流阶段，真正重要的问题已经不再是「模型能不能完成任务」，而是「能否把 AI 能力沉…

YC眼中的五种AI Agent核心形态

来源：BlockWeek

2026/05/20 19:23

阅读时长 19 分钟

AI$0.03458-3.32%

PROMPT$0.03968+25.13%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

编者按：当 AI Agent 从一次性 Prompt 和 vibe coding，进入更复杂的工作流阶段，真正重要的问题已经不再是「模型能不能完成任务」，而是「能否把 AI 能力沉淀为可复用、可积累的流程资产」。

本文从 Garry Tan 的 GBrain 出发，总结了当前许多人在使用 Codex、Claude Code、Hermes 等 Agent 工具时逐渐收敛出的五种核心形态：可参数化的 Skills、轻量执行框架 Thin Harness、负责路由的 Resolvers、区分模型判断与确定性代码的执行层，以及用于长期积累上下文的 Memory。

这些模块组合在一起，指向的是一种新的「过程能力」：把经验写成流程，把任务抽象成参数，把稳定规则交给代码，把判断和综合交给模型，再通过记忆层持续沉淀。相比一次性生成的应用或提示词，这种系统更难被复制，也更可能成为个人、小团队乃至公司在 AI 时代形成长期竞争优势的基础。

以下为原文：

我花了一些时间研究 Garry Tan 的 GBrain。作为一个非技术背景、也不在风投行业工作的人，我想提炼一下其中我看到的几种通用结构形态，以及它真正有意思的地方。

我认为，很多人正在逐渐收敛到同一组核心结构上。它们大概可以概括为 5 种形态，也代表了 Codex、Claude Code、Hermes、OpenClaw 等智能体式 AI 工具在使用方式上的自然演进方向。

相关阅读：《瘦 Harness，胖 Skill：100 倍 AI 生产力的真正来源》

Skills：从 SOP 到「方法调用」

Skills 几乎是所有人最自然的起点。即便没有人提醒，用户也会下意识去构建它，因为它的形态非常熟悉。我一开始把它理解为一种 SOP，也就是用于完成某件事的标准作业流程。用户提供「要做什么」，Skill 提供「怎么做」。

Tan 的理解是，Skill 更像是一次「方法调用」。在编程里，方法调用指的是用参数来调用某个程序流程。同一段代码每次都会运行，变化的是参数：什么数据、什么问题、什么目标。比如同一个 process_invoice 函数，可以处理系统里的每一张发票，而不只是它最初被写出来时对应的那一张。

Skill 也是类似的结构。一个名为 /investigate 的 Skill 可能包含七个固定步骤，这七个步骤不会变。变化的是参数：TARGET（调查对象是谁或是什么）、QUESTION（你想弄清楚什么）、DATASET（去哪里找信息）。把它指向一个医疗行业举报人案例，它就像一个研究分析师；把它指向 SEC 申报文件，它就像一个法务调查员。同一个文件、同样的七个步骤，差别由外部世界提供。

这和传统 SOP 是不同的。大多数 SOP 都是为某一个具体岗位或任务编写的，比如「处理应付账款」。每个使用场景对应一套流程。而 Skill 的抽象程度更高，同一套流程可以处理一类问题。一个设计良好的 Skill，可以完成几十份 SOP 的工作，因为具体案例的信息被从文档中抽离出来，转移到了参数里。具体到实际使用，有些 Skill 更接近 SOP，有些则更接近方法调用。

Thin Harness：模型是智能，Harness 是手脚

模型，比如 Opus、GPT-5.5 等，是原始智能；Harness，比如 Claude Code、Codex CLI、Hermes、OpenClaw，则是让模型真正「有手脚」的执行框架。它们负责循环执行、读写文件、管理上下文、执行安全约束。其核心代码大约只有 200 行。

Garry 提到，大多数人都会犯的一个错误是不断往 Harness 里塞更多东西，我自己也是这样。我最后积累了 100 个工具定义，以及一堆 MCP 服务器。结果是，上下文窗口被大量当前任务并不需要的工具说明占满。模型开始混淆到底该用哪个工具，延迟上升，准确率下降，最终形成所谓的「上下文腐化」。

Resolvers：用路由表解决上下文腐化

解决上下文腐化的方法，是建立一张路由表。Resolver 的作用是把「刚刚进来的任务类型 X」明确映射到「应该调用 Skill Y」。当你只有 5 个 Skill 时，你不需要 Resolver；但当你有 100 个 Skill 时，各种描述会变得模糊，模型很容易无法在正确时间调用正确的 Skill。Resolver 用明确规则替代了模糊的模式匹配。

Tan 还为文件运行了一套类似 Resolver 的机制：一张独立的路由表，用来决定某个 Skill 的输出应该落到文件系统中的哪个位置。这是同一种「审计—路由」结构，被应用到了另一个问题上。这样一来，输出就会稳定地进入正确文件夹，而不是放到模型临时猜测的位置。

Skillify 是他的另一个配套思路：它是一套质量循环，用来把一次性的 Skill 变成可长期复用的基础设施。Tan 描述的 10 步流程包括：契约定义、在适合的地方使用确定性代码、单元测试、集成测试、LLM-as-judge 评估、Resolver 条目、审计脚本、检查哪些 Skill 没有调用路径，以及端到端冒烟测试。测试标准很简单：如果你必须向模型重复问同一个问题两遍，那就是失败。

Latent vs. Deterministic：判断交给模型，确定性任务交给代码

需要认真区分哪些工作应该交给 LLM，哪些应该交给确定性系统。LLM 擅长判断、综合、模式识别和读懂言外之意；但它不擅长算术、组合优化，也不适合处理任何需要每次给出同一个答案的任务。LLM 本质上是概率性的，当确定性方案可以解决问题时，就不应该用 LLM。

大多数非技术背景的人，往往低估了确定性层的价值。大家的默认反应，是把所有事情都丢给模型。但如果某件事可以用确定性方式完成，那几乎就应该这样做。而且你不需要自己是程序员，因为模型可以替你写代码。真正需要训练的是一种纪律：每次都问自己，这件事能不能用代码稳定、低成本地完成？如果答案是可以，就让模型把那段代码写出来。

Memory：让系统真正可积累

要让系统有用，它必须具备某种形式的记忆。我还不确定最正确的形态是什么，现在很多人也在用不同方式构建：向量嵌入、语义相似度、知识图谱、混合存储等。Tan 的做法和我一样：就是一个 markdown 文件夹。

他的结构是：每个人一页、每家公司一页、每个概念一页。每一页顶部是「当前可信结论」，也就是随着新证据不断重写和更新的综合判断；底部则是一条只追加、不覆盖的时间线。

选择 markdown 会带来几个结果。首先，文件本身就是系统的主记录，而不是某种导出结果。你可以在 VS Code 里打开它、手动编辑它，Agent 会自动读取这些变化。其次，类型化关系，比如 works_at、invested_in、founded、attended、advises，会在每次写入时通过正则表达式自动抽取出来，因此知识图谱可以在不消耗 token 的情况下自行连接。这个具体 schema 很适合他的工作，但对其他人来说，可能需要根据自己的职业和业务场景重新定制。

此外，还有一个信号探测器在后台运行。某个人被提到一次，就会生成一个 stub 页面；如果他在多个来源中被提到三次，就会触发网页信息补全；一次会议结束后，则会运行完整流程。夜间的「dream cycle」会扫描对话、补全过时实体信息，并修复失效引用。基础层是文本，在此之上的所有东西都便宜、可组合。

底层当然还有更多细节，但我认为，这些就是其中最重要的轮廓，而且它们在相当程度上具有普适性。

我自己其实已经搭建了大约一半这样的架构。过去还没有达到必须引入真正 Resolver 的规模，但现在已经到了这个阶段，所以我刚刚做了一轮小重构，让自己的系统变得模型无关，并内置 Resolver。目前我还没有搭建的关键部分，是后台自动运行的信号探测器和夜间 dream cycle，也就是自动信息补全与整理机制，这是我接下来想尝试加入的部分。

我怀疑，不同构建者正在向类似结构收敛，本身就是一个信号：这种形态虽然未必适用于所有人，但总体上大概率是有用的。即便具体实现细节会有重要差异，但这种总体结构，正在被越来越多人独立摸索出来。

我最近一直在问自己的问题是：如何用 AI 建立可持续的竞争优势？

大家都对 vibe-coded 应用和一次性 prompt 很兴奋，这当然非常酷。我自己最开始也是这样玩起来的，并因此入坑。但任何可以通过一次性 prompt 构建出来的东西，它的均衡价格最终都会下降到构建它所需的 token 成本，也就是几美分。

比如有人复制了 MyFitnessPal，用一半价格出售并赚了 100 万美元，这当然很厉害。但很快就会有人再复制它，并以更低价格出售。这个循环会不断继续，直到利润空间被完全压缩。

真正可持续的东西，是某种「流程能力」。用 Hamilton Helmer《7 Powers》的框架来说，上面这套架构隐含的，正是 process power。

《7 Powers》提出，企业之所以能够长期维持高于市场平均水平的利润率，是因为它拥有七种结构性力量之一。任何没有扎根于这些力量的优势，最终都会被竞争侵蚀。

对中小企业和早期公司来说，Helmer 的七种力量中有五种基本是关上的门。规模经济需要规模；网络效应和转换成本可以建立，但需要先积累庞大的用户基础；独占资源通常意味着专利或类似资产，这并不是多数公司能够拥有的东西；品牌则通常需要十年时间积累，无法走捷径。

剩下的两种，是反定位和流程能力。

反定位指的是一种现有巨头无法模仿的商业模式，因为一旦模仿，就会伤害它自己的既有业务。这种机会有时存在，但并不总是可得。

于是，最现实的路径就剩下流程能力。而一个设计良好的 AI 系统，恰恰就是能够生成流程能力的工具。

这和建立高质量 SOP 或自研专有软件，本质上是同一种工作：流程被编码，案例被参数化，底层确定性系统快速且可靠，记忆层则不断承接过去学到的东西。它让「产品化服务」被进一步放大：你能够以更低成本或更高质量提供某种服务或产品，因为整个工作已经被结构化了。

想象一位会计师搭建了这样一套系统。记忆层是一个文件夹，每个客户都有一个 markdown 文件，里面包括当前可信结论，比如实体结构、年度税务立场、正在进行的审计，以及一条时间线，记录会议、决策和发生的变化。

她有一些 Skill，比如 /year-end-review、/quarterly-estimate、/audit-prep。同一套流程可以针对不同客户进行参数化执行。

她还有一个确定性层，包括税表、折旧表、IRS 文件、客户历史税表等。

再加上一套类似日志整理或 dream cycle 的机制。比如系统在夜间自动发现某位合伙人的 K-1 分配在没有策略变化的情况下下降了 40%；或者注意到某个客户的家庭办公室扣除结构，可以迁移到另一个客户身上，结构可以复用，但身份和隐私仍然留在原处。

这样一来，她可以收取少量溢价，每年服务更多客户，而竞争对手很难复制，因为这套结构并不是等她成功后才凭空出现的，而是从一开始就在持续积累。

从表面看，这个工具只是一个 markdown 文件夹。但每个文件里的每一行，背后都来自大量有意识的测试、搭建和迭代。真正形成竞争壁垒的，不是文件本身，而是这些文件所承载的流程能力。

市场机遇

Gensyn实时价格 (AI)

$0.03456

$0.03456$0.03456

-0.94%

USD

Gensyn (AI) 实时价格图表

SPACEX(PRE) Launchpad Is Live

Start with $100 to share 6,000 SPACEX(PRE)

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。