Every CEO Dan Shipper 發現,AI 自動化程度越高,團隊要做的反而越多,沒人因此被解僱。因 […] 〈我 30 人的公司全部用 Claude Code AI 化,結果「人類要做的工作比以往更多」〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Every CEO Dan Shipper 發現,AI 自動化程度越高,團隊要做的反而越多,沒人因此被解僱。因 […] 〈我 30 人的公司全部用 Claude Code AI 化,結果「人類要做的工作比以往更多」〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

我 30 人的公司全部用 Claude Code AI 化,結果「人類要做的工作比以往更多」

2026/05/24 16:02
閱讀時長 68 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

Every CEO Dan Shipper 發現,AI 自動化程度越高,團隊要做的反而越多,沒人因此被解僱。因為 AI 商品化的是「昨天的能力」,真正缺的是判斷力。
(前情提要:我用 AI 玩戰爭遊戲:GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜…
(背景補充:馬斯克:美國「債務危機」將引爆比特幣,能源才是真貨幣

本文目錄

Toggle
  • AI 越自動,人類越忙:30 人公司的矛盾實況
  • 模型在 4 小時任務達 80% 成功率,為何團隊不減脂?
  • 「商品化」陷阱:當人人會寫程式,什麼才值錢?
  • 追上的只是賽道,不是制定賽道的人
  • 自我在哪裡?拉比寓言讀懂 AI 時代的困惑

科技 CEO 警告 AI 可能消滅一半初階白領職位、Meta 裁員 8000 人再用軟體監控滑鼠軌跡,主流焦慮已經定調:模型越強,人類越可能被取代。

但 Every 創辦人 Dan Shipper 在 every.to 最新文章揭露,他經營的 30 人公司全部用上 Claude Code、AI 客服與自動化郵件,結果竟是「人類需要做的工作比以往更多」,沒有任何一個人因 AI 被解僱,工作型態卻徹底重組。

Shipper 認為,只要模型仍在回應人類設定的問題,它便永遠追不上「設定框架的人」。


AI 的核心,存在一個悖論。

在 Every,我們已經把能自動化的事情儘可能自動化了。無論是編碼、寫作、設計、客服,還是其他日常工作,我們都在使用 Codex 和 Claude Code。OpenAI、Anthropic、Google 的新模型正式發布前,我們也會參與 alpha 測試。可以說,我們正在儘可能快、儘可能深地搭上模型智慧與自動化能力指數級提升的浪潮。

但矛盾的是,對我們而言,人類需要完成的工作似乎比以往任何時候都更多。Every 目前是一支接近 30 人的團隊,我們並沒有因為有了 Agent 就解僱所有員工;也沒有拋棄 SaaS 工具,轉而完全依賴 vibe coding 做出來的應用。我們仍然會招聘真人客服,只是他們會得到大量 Agent 輔助;我們也仍然在招聘作者、編輯和工程師。

不過,工作的形態確實已經發生了巨大變化。我們幾乎不再手寫程式碼了。如果你在 Slack 裡 @ 某個人,對方究竟是人還是 Agent,有時並不好判斷。管理者開始像一線個人貢獻者一樣提交程式碼,工程師也開始直接面對客戶。過去幾周裡,我 95% 的工作郵件都由 AI 代為回覆。我的收件箱幾乎一直保持清零狀態,這對我來說極其罕見,但我依然會逐封檢查郵件。

換句話說,未來看起來很陌生,但又出奇地熟悉。

這種「熟悉感」本身就令人意外。因為無論是 CEO、知識工作者還是投資人,似乎都越來越相信同一件事:AI 正在威脅就業、經濟、安全,甚至人類工作的意義。

Anthropic CEO Dario Amodei 曾警告,AI 可能消滅多達一半的初級白領崗位。Meta 最近剛裁掉 8000 人,並開始在美國員工電腦上安裝軟體,記錄滑鼠移動、點選和鍵盤輸入,以獲取更高質量的高階知識工作訓練資料。

就連 Citadel 創始人 Ken Griffin 也顯得頗為震動。他近期表示:「這些不是中低端白領崗位,而是極高技能崗位,正在被 Agentic AI 自動化。」

各類基準測試似乎也在支援這種判斷。隨著新一代模型不斷髮布,模型能力指標正以近乎指數級的速度上升。在 Humanity』s Last Exam 這項研究生水平推理測試中,頂級模型的成績從一年前的低個位數,提升到如今約 44%。在 GDPval 這項衡量前沿模型完成真實經濟工作能力、並與人類表現進行對比的測試中,模型成績也從類似低位躍升至約 85%。

今年 5 月,AI 安全研究非營利機構 METR 發布了 Claude Mythos 的早期測試結果:在一些人類專家大約需要 4 小時才能完成的任務上,該模型的成功率達到 80%。

看起來,我們似乎正站在一個臨界點前:一種比任何人類都更聰明、並且能夠連續自主工作近一整天的 AI,正在逼近現實。

然而,悖論依舊存在。如果你和 AI 產業從業者交流,或者和產業外最早使用 AI 的那批人交流,你會聽到一個與我們內部觀察相同的結論:要做的工作反而比以前更多了。

產業內外真正關心的問題是:這只是一個過渡狀態嗎?下一個模型發布,會不會就是那個真正替代所有人的時刻?我們盯著基準測試曲線,一邊興奮,一邊緊張,擔心某個轉折點隨時到來,屆時大量工作將突然消失。

但我認為,不會有這樣一個「臨界點」突然降臨,讓一切瞬間翻轉,讓工作大規模消失。新的現實恰恰相反:自動化程度越高,需要人類專家參與的工作反而越多。

原因在於,AI 正在將人類專業能力中那些可被明確表達、可被訓練和複製的部分商品化。凡是能夠被寫成規則、沉澱為流程、轉化為訓練資料的知識,都會逐漸變成模型的預設能力。結果是,普通模型輸出的價值被迅速壓低,而市場開始更強烈地需要那些不一樣的東西。

而對「不一樣」的需求,本質上就是對人類專家的需求。即便我們正在接近通用人工智慧,這一點也不會消失。

要理解其中原因,不能只看基準測試曲線,也不能只盯著模型引數和能力排行榜。我們必須回到現實工作場景中,看看今天的 AI 究竟是如何被使用的。只有這樣,才能真正理解這個悖論,以及它背後的答案。

從 2022 年開始,我們就一直在關注 Agent 對未來工作的影響。

三年前,我曾寫過一篇關於「分配型經濟」(allocation economy)的文章。當時我的判斷是,與 AI 工具協作,最終會越來越像人類管理者的工作:你不再親自完成每一個動作,而是把任務拆解、分配、監督和驗收。那時,ChatGPT 裡最基礎的提問與回答,仍然被許多人視為極具未來感、甚至有些令人不安的東西。

到了 2025 年年中,Every 這家公司幾乎徹底「Claude Code 化」了。Cora 的總經理 Kieran Klaassen 突然發現,他已經可以放棄手寫程式碼,轉而整天在終端裡用自然語言給一個程式設計 Agent 下指令。這種工作方式很快擴散到整個公司。大約 12 個月前,我在 Lenny』s Podcast 上說,Claude Code 是知識工作中最被低估的工具。

我之所以提起這些,是因為我們過去一些最準確的判斷,往往來自把 Every 當作一個早期採用者實驗室來觀察。很多新的工作模式,會先在我們內部出現;等技術進一步成熟、工具變得更易用之後,這些模式才會逐漸進入更廣泛的市場。

而現在,我們內部正在發生新的變化。

圍繞 AI 的工作方式,正在逐漸收斂成兩種非常不同的模式。

第一種,是此前 AI 討論中已經較為準確預判到的方向:把 Agent 當作員工。這類 Agent 可以被委派任務。有些 Agent 生活在 Slack 裡,有自己的名字和職責,當你需要它做事時,可以直接 @ 它;也有些 Agent 被嵌入到持續執行的工作流中,例如客服系統,作為重複性任務的全天候入口和篩選器。

第二種模式更陌生,但在我的經驗裡,也更重要。它指的是在 Codex、Claude Code、Claude Cowork 這類工具中的人類與 Agent 協同工作。這些工具不只是讓你把任務交出去的地方,它們正在成為工作本身的作業系統:你和多個 Agent 同時使用同一臺「計算機」,在同一個工作環境中協作,完成高度複雜、原創性強、無法簡單交給非同步 Agent 完成的任務。

在這兩種模式中,你都可以用 AI 自動化和委派掉相當一部分工作。但這兩種模式要真正運轉良好,都仍然需要你,或者另一位人類參與其中。

所謂 Agent 員工,就是你給它一個任務,它離開你的即時參與,獨立產出一個答案、一個行動、一份報告、一份初稿,或者一個分流判斷。

這類 Agent 至少有兩種形態:一種是「同事型 Agent」,另一種是「嵌入式 Agent」。

1、同事型 Agent

所謂同事型 Agent,指的是你可以像 @ 一位同事一樣在 Slack 裡叫它出來,讓它完成某項工作。它隨時都在,需要時就能被呼叫。OpenClaw 這類產品,或者我們內部開發的 Plus One,都屬於這一型別。

AI 越自動,人類越忙:30 人公司的矛盾實況

Claudie 是我們諮詢團隊使用的同事型 Agent。它會撰寫銷售提案,生成培訓材料的初稿,跟蹤專案待辦事項,還能處理更多類似工作。

Andy 是我們編輯團隊使用的同事型 Agent。它會從公司內部 Slack 中收集那些值得進一步展開的「素材點」——也就是可能發展成文章的好想法——並將它們整理成摘要和初步觀點,供作者們用於編寫每日新聞簡報。

Viktor 是一個通用型 Agent,會在公司內部承擔跨部門工作。我們會用它收集增長指標、分析使用者調研結果,也會讓它把雜亂的內部討論整理成研究備忘錄和產品建議。

2、嵌入式 Agent

嵌入式 Agent 存在於具體的產品工作流中。它們的靈活性不如同事型 Agent,但在處理重複性任務時,往往非常有力。

Fin 是最清晰的例子。它是嵌入在我們客服平台中的一個 Agent,可以透過聊天和郵件承擔大量客服工作。

今年 5 月的某一週,Fin 參與了 Every 全部 202 個客服對話中的 65%,並在沒有人類介入的情況下獨立關閉了其中 81 個工單,佔所有可處理對話的 40.1%。

這類嵌入式 Agent 讓我們的客服經理 Waqqas Mir 可以少花時間回覆基礎工單,把更多精力放在搭建「能夠自動響應工單的系統」上,以及處理那些需要更高接觸度、更復雜判斷的客戶案例。

無論是同事型 Agent,還是嵌入式 Agent,背後的模式都是一致的:Agent 員工正在接管更多穩定、重複、邊界清晰的工作層。

但仍然有大量工作必須有人類參與其中。我們反覆發現,只要任務足夠複雜,想要得到真正高質量的結果,最好的方式不是把工作完全交給 AI,而是讓 AI 和人類在同一個工作空間裡來回協作。

這正是 Codex、Claude Code 和 Cowork 這類工具的價值所在。它們允許你在多個聊天執行緒中啟動一個或多個 Agent,並把任務委派給它們。這些 Agent 可以訪問你的電腦,以及所有相關資料來源。你能看到每個 Agent 正在執行什麼任務、正在如何思考,並且可以隨時打斷它。

與此同時,你仍然要負責管理這些 Agent:在每項任務開始時明確方向,在任務結束時檢查質量,確保結果足夠好,並繼續找到下一項值得推進的工作。Kieran 把這種角色稱為人類「夾心麵包」——AI 負責中間的工作部分,而人類則像兩片面包一樣,夾在任務的開頭和結尾。

最典型的例子是寫程式碼。在 Every,工程師幾乎整天都在和 Agent 來回協作。他們會一起規劃新功能或修復 Bug,審查已經完成的工作;如果採用我們所說的「複合工程」(compound engineering)理念,還會不斷調優自己的系統,讓它隨著時間推移變得更好用。

但這種協作方式遠不止於編碼。

Codex 和 Claude Code 正在成為一種新的工作作業系統。我幾乎一整天都待在 Codex 裡,透過它的內建瀏覽器執行各種 SaaS 工具。它讓我可以把 Agent 帶到每一個工作場景中,並達到一個單靠自己無法實現的工作水平。

寫作

這篇文章就是我在 Codex 的內建瀏覽器裡,用 Proof 寫出來的。Codex 會觀察我正在寫什麼,並且可以隨時啟動一個子 Agent,去完成我需要的任何任務:起草某一段的初稿、為下一部分查詢案例,或者進行文字編輯和潤色。

郵件

處理郵件時,我也採用同樣的方式。Cora 是我的郵件客戶端,我會在 Codex 的內建瀏覽器中開啟它,一邊瀏覽收件箱,一邊透過 Monologue 把每封郵件的處理思路說出來。剩下的部分,則交給 Codex 和 Cora 來完成。

在上述所有自動化場景中,你或許已經能看出,人類究竟在哪裡發揮作用。每一個例子裡,Agent 都需要人類參與,工作本身才能真正運轉起來。

總得有人把它指向正確的問題,判斷產出是否足夠好,發現其中出錯的地方,並把結果轉化為現實中的決策或流程。

一個 Agent 離負責監督其表現的人類越遠,它的工作效果往往就越差。在最初的內部推廣中,我們曾給每位員工都配備了一個 Agent。但很快,我們又退回到讓 Agent 服務於某個具體團隊,或者服務於整個公司,而不是服務於單個個人。

原因很簡單:Agent 需要大量維護。個人 Agent 一旦使用者放棄跟進,很快就會變得陳舊、失效。我們有一支 AI 工程師團隊,專門負責確保這些 Agent 能夠穩定、有效地工作。而在可預見的未來,我們仍然需要這支團隊。即便是「自動生成 PowerPoint」這樣看似簡單的任務,也可能演變成一個龐大的系統工程。我們其中一個 PowerPoint 自動化流程,就包含 24 個技能和 18 個指令碼,生成一份簡報的 token 成本高達 62 美元。

這是 Agent 反而為人類創造更多工作的第一層原因。

但還有第二層原因。

如果你觀察過去幾年 AI 能力的指數級增長,再結合其架構方式和能力來源,就會發現一組清晰的反饋迴圈:它們正在不斷創造更多人類工作。

當前的大語言模型,是在人類能力留下的可見痕跡上訓練出來的:程式碼、文章、圖片、客服工單、產品規格檔案,以及更多其他內容。它們吸收這些內容,也就是那些已經被成功完成的任務所留下的「尾氣」,再以一種低成本、人人可用的形式重新打包出來。

結果是,許多過去稀缺的能力,如提交一段程式碼 PR、製作一張 YouTube 縮圖、撰寫一封新聞簡報,如今幾乎向所有人開放了。

當某種原本稀缺的東西成本下降,供給就會迅速增加。

模型在 4 小時任務達 80% 成功率,為何團隊不減脂?

在 Every,我們一直在看到這種變化。營運和客服人員開始寫程式碼、提交 pull request;市場人員開始製作 YouTube 縮圖;工程師和產品人員也開始撰寫文章、指南和落實頁初稿,而這些原本並不是他們會主動承擔的工作。

這種變化也在 Every 之外發生。以開源 AI Agent 專案 OpenClaw 為例,截至 2026 年 5 月 16 日,其程式碼倉庫已經收到 44,469 個 pull request,其中 12,430 個來自 4 月 1 日之後,3,990 個來自 5 月 1 日之後。這是一個驚人的數量。作為對比,Kubernetes 作為全球最受歡迎的開源專案之一,2022 年全年收到的 pull request 數量也只有 5,200 個。

因為所有人都可以使用同樣的模型,而這些模型又都建立在「昨天的人類能力」之上,所以預設情況下,模型產出的東西往往介於「還不錯的起點」和「純粹的 AI 垃圾內容」之間。

這裡說的「垃圾內容」,並不是某一個具體錯誤。它不是指破折號用得太多,不是某種固定句式,也不是落實頁上到處出現的紫色點綴。它指的是一種肉眼可見、反覆出現、令人厭倦的同質化。

當不同場景中的人類使用同一套工具,而這套工具又基於同一類語料訓練,並且使用者沒有進行足夠深入的判斷時,就會產生這種結果。換句話說,當每個人都擁有一個傾向相同、預設風格相同的「專家」時,同質化就會自然發生。

當營運人員可以提交 pull request,市場人員可以在幾秒鐘內生成 YouTube 縮圖,工程師也開始撰寫產品指南時,很容易出現這樣一種局面:你的產出數量上去了,但作品的質量、一致性和差異化反而下降了。

而同質化一旦變得過度豐裕,就會迅速淪為商品。

由於網際網路的存在,人類很快就能識別什麼是「AI 味」過重的流水線內容。任何作品都可能瞬間抵達世界上的其他人面前,事實上也經常如此。一旦太多東西開始長得一樣,我們很快就會察覺不對勁。

這意味著,當你第一次看到某個新模型的能力時,可能會被震住,甚至有點害怕。但幾個月後,這些能力就會變得普通。不是模型變弱了,而是你的標準變了。

我們不再滿足於隨便一個 React 應用,或者隨便一份研究報告。我們想要的是一個真正適配具體個人、具體公司、具體場景的東西。它要讓人感覺準確、鮮活、具體,而不是廉價、泛化、模板化。我們希望它的生產成本,無論是時間還是金錢,都明顯高於我們的消費成本。

我們想要的是帶有「地位感」的東西。而每當新技術讓過去高地位的東西變得廉價時,人類總是很擅長髮明新的地位遊戲,去匹配新的能力邊界。

當工作變得過度充裕,並且到處都看起來差不多時,那些不符合既有模式的工作,反而會成為稀缺、珍貴、具有高地位屬性的東西。

正因為語言模型的架構特徵,以及它們被廣泛分發給幾乎所有人,稀缺且有價值的工作,仍然必須來自人類。

當前這一代模型只知道已經發生過、已經完成過的工作。人類知道的是:此時此刻,究竟需要做什麼。

一旦一個具體情境被還原成文本,一旦它進入語料庫,它就已經變成了「過去的東西」。人類面對的是一個具體時刻、具體客戶、具體程式碼庫、具體對話,而訓練語料並不真正活在這個當下。這種「活著」的狀態,並不只是擁有更新的資料。我們帶著自己的來處進入當下,也帶著持續變化的慾望、關切和判斷,去理解什麼才是重要的。正是這些不斷更新的視角,改變了我們看到的東西。模型可以在被提示之後進入這種視角,但在被提示之前,它並不天然擁有這種視角。

這正是我們一開始提到的悖論:讓專家工作變得更便宜,並不會簡單地替代專家。相反,它會創造更多需要專家判斷的場景。

當營運人員藉助 AI 提交 pull request,你就需要工程師來審查。

當市場人員製作 YouTube 縮圖,你就需要設計師來進一步打磨。

當工程師開始寫文章,你就需要作者和編輯把初稿變成真正可讀、可發布的內容。

對此,人類專家會同時向兩個方向移動。

一部分專家會使用 AI 搭建系統,用來吸收並利用這股新增工作的洪流:評審佇列、評估體系、執行框架、程式碼庫規則、Claude 和 Codex 指令檔案、持續整合(CI)、許可權管理,以及能把初稿轉化為高質量成果的工作流。

另一部分專家則會藉助 AI,完成過去單靠自己無法完成的更大、更有趣的工作。比如,尋找 macOS 這類作業系統中的漏洞,通常需要數週甚至數月時間。但一家名為 Calif 的小型安全公司,藉助 Anthropic 的 Mythos Preview,在 5 天內找到了首個公開的、發生在 Apple M5 硬體上的 macOS 核心記憶體漏洞。

這就是為什麼在實踐中,AI 並不會消滅專家型知識工作。它真正帶來的,是工作量的急劇增加。而這些新增工作,只有在人類參與之後,才可能變得有差異、有價值。

我並不是在論證 AI 會為所有崗位創造更多工作。經濟系統非常複雜,而 Every 能夠直接觀察到的,是專家級知識工作。事實上,這類工作已經在被 AI 重塑,許多公司也正在圍繞新技術重新組織自身。

但我要強調的是,無論你當前從事什麼工作,都有一種工作形式,會在結構上始終領先於模型:那就是使用模型,去解決你此時此刻真正看到的問題。知識工作的未來,正在走向這裡。

最明顯的反駁是:看看那些指數級提升的基準測試吧。你現在說的一切都只是暫時的,只要再等一等,模型遲早會追上來。

但這裡有一個陷阱需要警惕。不妨稱之為「圖表迷狂」:如果你一直盯著 METR 的時間跨度預測,閱讀《AI 2027》,並且完全依靠算力曲線的外推來建立對未來的判斷,你很容易對模型進步產生一種令人恐懼的直覺。

不過,回應這個問題的最好方式,並不只是想象某個未來模型會變成什麼樣。當然,這也是分析的一部分。更重要的是,我們要看看這些基準測試究竟是如何被設計出來的。只有這樣,才能更準確地理解它們到底說明瞭什麼,以及它們和前面那些真實工作場景之間究竟是什麼關係。

我們會發現一個結構性特徵:所有基準測試都發生在某個「框架」之內。為了衡量某件事,你必須先把一個問題凍結成靜態的、可測量的形態。一旦這個框架被模型攻克,只需要稍微改變框架,就能再次把得分打回低位。當然,模型仍然會在新的框架內繼續進步,但同樣的過程會不斷重複。

因此,某個基準測試上的指數級進步是真實的;但只要簡單改變測試框架,這種進步看起來又會重新變得很小。基準測試飽和所呈現出的這種「分形」特徵,其實是在圖表層面重演我們一直在討論的同一個悖論。

我們可以透過一個真實世界中的基準測試,來看看這一機制是如何運作的。

「商品化」陷阱:當人人會寫程式,什麼才值錢?

我們內部搭建了一個基準測試,叫做 Senior Engineer Benchmark,也就是「高階工程師基準測試」。顧名思義,它用來測試前沿模型在高階工程師級別編碼任務上的能力,比如一次大型重構。

這個測試會給一個程式設計 Agent 一套已經失控的生產程式碼庫。它來自 Proof 的真實程式碼庫:最初是我用 vibe coding 寫出來的,後來問題越來越多,最終不得不請一位高階工程師來修復。

Agent 拿到的是修復前的程式碼庫,同時會收到一段類似你交給高階工程師的指令:「這是一堆 vibe coding 產物,請從第一性原理出發,把它重寫一遍。」

這是一個不錯的基準測試,因為它考察的不只是補程式碼能力,而是一個程式設計 Agent 能否同時審視許多彼此無關的問題,並判斷自己是否具備足夠的自主性、概念清晰度和執行勇氣,去完成一次真正可執行的重寫。作為對照,我還保留了兩位人類高階工程師在 AI 輔助下完成的重寫版本,用來比較和評估模型輸出。

對程式設計 Agent 來說,這個任務很難。它不僅要找到問題根源,還要在多輪互動中始終記住真正的問題,不被現有程式碼帶偏。同時,它還必須有勇氣刪除大段程式碼庫,而這恰恰是 Agent 通常被訓練去避免的行為。

大多數程式設計 Agent 都能大致判斷出應該如何重寫,但一到執行階段,它們往往只是繼續在原有問題上打補丁,而不是徹底解決問題。

直到 GPT-5.5 出現。

在最好的一次測試中,GPT-5.5 拿到了 62/100 分,比 Opus 4.7 高出約 30 分。

GPT-5.5 的表現讓人感覺,模型似乎跨過了某條界線:它不再只是自動補全,不只是助手,也不只是工具,而是某種令人不太舒服地接近「人類」的東西。在這項測試中,人類高階工程師的得分通常在 80 分高段到 90 分出頭。也就是說,如果模型再提高 30 分左右,就會達到人類高階工程師水平。

這正是基準測試數字對人類想象力產生影響的方式:它把一種奇怪的、定性的能力變化,壓縮成一個乾淨的數字,並用這個數字講出一個強有力、甚至有些嚇人的故事。

下一站,就是「圖表迷狂」。

我猜,在未來一年內,模型在這個基準測試上的得分會進入 80 分甚至 90 分割槽間。但要理解這個分數意味著什麼,首先必須理解這個分數究竟包含了什麼。就這個例子而言,62 分並不只是對模型本身能力的衡量。

它衡量的是模型在某個特定框架中的表現:也就是模型如何回應一個具體 prompt。

要對一個模型做基準測試,你首先需要一個 prompt。沒有 prompt,模型只是一組近乎無限可能性的靜態集合。

prompt 會創造出一個小型宇宙:它定義了什麼重要、應該如何處理問題,並把模型所有潛在可能性壓縮成一條具體行動軌跡。所謂模型「自己」會如何表現,嚴格來說並不存在。我們真正能觀察到的,是模型對不同 prompt 的回應方式,以及 prompt 如何轉化為回答背後的部分底層機制。

一旦 prompt 被輸入,模型就會在短時間內「活過來」,把那組靜止的可能性坍縮成對「接下來該發生什麼」的一次具體預測。

在 Senior Engineer Benchmark 中,我們會提示模型修復程式碼庫,並在它完成後審查輸出結果。如果測試框架本身沒有內建目標功能,我們還會執行一個自動「看護程式」,在模型停下來時繼續推動它,詢問它是否已經完成了最初設定的任務。

我們使用的是一個看起來很簡單的 prompt,作為測試的初始框架。它被設計成一個 vibe coder 可能會對程式設計 Agent 說的話:沒有堆砌技術術語,也沒有明顯把答案藏在問題裡。

Senior Engineer Benchmark 的 prompt 看似泛化,但它本身就是一個框架。如果我們改變這個框架,模型表現出來的能力水平也會隨之變化。

比如,這個 prompt 明確要求「從第一性原理出發做結構性重寫」,指出問題可能出在「檔案協作」部分,並要求程式設計 Agent 找出並堅持「程式碼庫中的不變數」。

如果去掉這些具體資訊,模型分數就會下降。如果完全替換 prompt,只讓模型「解決不斷出現的所有錯誤」,模型得分可能會接近零。它會直接開始逐個識別和修復錯誤,而不是退後一步,思考是否需要進行一次徹底重寫。

同樣,我也可以非常輕鬆地提高模型分數。如果我要求它刪除大量程式碼,並明確告訴它哪些檔案應該精簡;或者要求它在宣布完成前,先檢查自己的工作結果,確保應用可以完整執行,它在這項任務上的表現就會更好。

歸根結底,設計基準測試時,總是要對使用什麼 prompt,也就是採用什麼「框架」作出判斷。你需要一個足夠難的 prompt,讓當前模型表現不佳;但它又必須足夠接近模型現有能力邊界,讓模型可以沿著這條路徑爬坡,從而讓你看到進步正在發生。

因此,當我們觀察一個基準測試時,真正看到的是:模型正在越來越擅長某一種特定的問題框架,而這個框架是由我們選擇出來的。那麼,當模型在這個測試中從 60 分提升到 90 分,甚至 100 分時,會發生什麼?

如果 GPT-6 可以一鍵完成程式碼庫重寫,那麼會有更多人開始嘗試「從第一性原理出發重寫程式碼庫」。

一夜之間,原本稀缺、昂貴、必須由高階工程師主導的第一性原理重寫專案,會變成每個創始人、產品經理、營運人員和初級工程師都能在一個下午隨手嘗試的事情。

破損的內部工具不再被修修補補,而是直接重寫;SaaS 產品不再續費,而是被克隆;老舊的 Rails 應用、混亂的 React 儀表盤、客服工具、後臺管理面板和資料管道,都會變成「乾脆重寫一遍」的候選物件。

被提出和被執行的重寫專案數量會急劇增加。但其中大多數重寫,依然會是 slop。因為在你按下「直接重寫」按鈕之前,其實有上千個變數需要考慮。而當每個人都能做這件事後,這些變數會變得更加清晰可見。

這時,誰會被叫來解決問題,也就很明顯了。

一旦某個基準測試開始接近飽和,它框架內的工作就會變得更便宜。與此同時,市場對專家的需求反而會上升,因為需要有人把這種新近變得廉價的能力,適配到今天正在發生的真實問題中。

使用 AI 的高階工程師,需要判斷大量細節,才能讓一次新的第一性原理重寫真正成立。其中甚至包括一個最基礎的問題:這次重寫到底有沒有必要?

追上的只是賽道,不是制定賽道的人

我們應該現在重寫,稍後重寫,還是根本不重寫?哪些內容應該納入範圍?當前程式碼庫裡哪些東西應該被保留?架構、資料庫、快取伺服器和託管服務商應該繼續沿用,還是全部更換?我們是否應該先看看有多少人正在使用這個損壞的功能,然後乾脆刪除它?誰來審查最終結果?依據什麼標準審查?回滾方案是什麼?現有資料又該如何處理?

這些問題會沿著無數維度不斷展開,而每一個答案又會反過來改變其他問題。

高階工程師會進入這個空白地帶。有些人會對這些打斷感到輕微煩躁;有些人會搭建系統,把這類請求擋在外面;還有一些人則會利用這些新模型,完成自己的第一性原理重寫,而且效果會遠遠好於模型在預設 prompt 下能做到的水平。

等當前的 Senior Engineer Benchmark 被模型攻克之後,我們會改變框架,再次把分數打回低位。

下一個基準測試不會只問:「你能重寫這個應用嗎?」它會問:你能不能判斷什麼時候需要重寫?能不能選擇合適的範圍?能不能保留正確的不變數?能不能管理遷移過程?能不能判斷最終結果是否足夠好?

當高階工程師開始使用 AI 解決這些問題時,模型也會逐漸變得更擅長獨立解決這些問題。

然後,我們又會短暫陷入恐慌:看起來模型現在已經能判斷是否應該重寫了!它們似乎已經能做高階工程師能做的一切了!

但緊接著,新的邊界會出現。那是此前並不明顯的邊界。我們會再次重置基準測試,新的需求會被激發出來,整個過程也會再次重複。

這並不只是 Senior Engineer Benchmark 獨有的問題。只要仔細觀察,你幾乎可以在每一個基準測試中看到同樣的機制。

以 OpenAI 的 GDPval 基準測試為例。它評估的是 AI 在合規官、律師、軟體開發者等不同職業的專家級任務上,表現得有多接近人類。

GDPval 剛發布時,OpenAI 的研究顯示,GPT-5 在 40.6% 的任務中達到或超過了人類專業人士水平。而 Claude Opus 4.1 的表現更驚人,在 49% 的任務中超過了人類專家。

隨後,一系列標題湧現出來。比如 Axios 寫道:「OpenAI 工具顯示,AI 正在追上人類工作」;Fortune 則寫道:「OpenAI 新基準 GDPval 顯示,AI 模型已經在近半數任務上達到專家水平。」

這些結果確實令人印象深刻。但我們不妨先看看這些任務所使用的 prompt:

這裡面其實已經投入了大量人類智慧:有人先把問題框定成一種模型能夠完成的形式。

GDPval 沒有衡量的那些困難的人類工作,其實在模型開始作答之前就已經完成了。必須有人審查並測試這組具體指標的準確性;有人決定合適的置信區間,判斷哪些指標屬於任務範圍,哪些不屬於;也有人規定結果應該如何呈現。

在合適的問題框架下,模型確實可以完成專業工作。但不妨想想,如果是你我來提示模型完成同樣的任務,它會表現得怎樣?

在我最初關於 GDPval 的文章裡,我曾寫道:「我非常看好 AI,但如果正確解讀這些案例,它們顯示的不是人類要做的工作變少了,而是使用 AI 之後,人類要做的工作更多了。原因在於,這些成就背後隱藏著大量被『偷渡』進去的智慧——也就是人類判斷、反饋和提示詞構成的隱形層。」

拉遠來看,你會發現,這一切背後貫穿著一種 AI 版的「芝諾悖論」。

在芝諾悖論中,一隻烏龜在賽跑中戰勝了希臘最快的跑者阿喀琉斯。

因為烏龜跑得慢,所以它先出發一段距離。當阿喀琉斯跑到烏龜最初的位置時,烏龜已經又向前移動了一點;等阿喀琉斯追到那個新的位置,烏龜又再次前進。無論阿喀琉斯跑得多快,總有下一段距離需要追趕,而這個差距會不斷重新生成。

在 AI 的芝諾悖論裡,我們人類就是那隻烏龜。憑藉數百萬年的進化和文化學習,我們比 AI 領先了 50 碼。AI 則高速穿過這一切,開始逼近我們的腳後跟。

至少在過去幾年裡,我們仍然能夠保持領先。

我認為,即便 AGI 真正到來,也仍然存在強大的技術、架構和經濟力量,讓 AI 始終落後人類幾步。

首先,我們需要給 AGI 一個可操作的定義。

我曾提出,當讓一個 Agent 持續執行在經濟上變得合理時,AGI 就已經到來了。也就是說,當我擁有一個持久執行的系統,並且願意付費讓它 7×24 小時持續思考、學習和行動時,我認為那就可以明確視為 AGI。

我們現在還遠遠沒到這一步。即便是 OpenClaw 這類技術上隨時可被呼叫的系統,也並不是每時每刻都在生成 token。

我喜歡這個定義,因為它是可衡量的:我們要麼會讓它們一直執行,要麼不會。同時,它也包含了許多難以直接測量的能力。一個值得持續執行的模型,必須能夠不斷學習,並以開放式的方式選擇、再選擇新的問題框架。

在一個 AGI 世界裡,理論上,只要給定足夠預算和時間,模型應該能夠對任何問題持續爬坡、不斷改進。這確實應該對所有工作構成重大威脅。

但即便是這種強版本的 AGI,也無法消解「框架問題」。

這種 AGI 可以選擇並重新選擇框架,但它仍然是在追求某個被賦予的目標、最佳化某個獎勵,或者響應某個由他人決定「代表進展」的訊號。這個目標可以很具體,比如「提高這個落實頁的轉化率」;也可以很抽象,比如「尋找新的科學想法」。

即便模型可以在不同框架之間流暢切換,我們一直追蹤的那個差距,也會在更高一層重新出現。在任何一家主要實驗室構想出的 AGI 中,仍然會有一個「框定者」存在——也就是一個人類,由他來指揮模型達成某個目標。

自我在哪裡?拉比寓言讀懂 AI 時代的困惑

正因為框架不是框定者,同樣的模式會不斷重複:AI 把昨天被框定過的能力變得廉價;人們把這種廉價能力用到更多場景中;結果變得極度豐裕;專家則移動到新的邊緣地帶,判斷此刻什麼才重要;他們的判斷創造出下一個框架;然後模型繼續攀爬這個框架。

當我們看到 AI 做出某件新事情時,那種恐慌感總會回到同一個問題上:我們設定一個框架,看著模型爬上去,然後把這個框架,或者那個能夠爬上框架的東西,誤認為事情本身。

當我們看著一個基準測試,並把它和人類能力做比較時,我們其實混淆了「框架」和「框定者」。分數告訴我們的,只是模型在我們提供的框架中表現得有多好;它並不能說明模型已經變成了我們。

這正是恐慌背後的範疇錯誤。我們指著自己剛剛畫出的最新邊界說:這就是我們。然後,當模型爬過這條邊界時,我們就覺得它追上了我們。但它追上的只是框架,不是框定者。

錯誤在於,我們總想抓住某種具體的東西。我們想說:智慧就是這個基準測試。但問題是,一旦某個東西具體到可以被指認,它也就具體到可以被最佳化和攀爬。

框架是必要的。它讓我們能夠抓住世界、處理世界。但框架也是凍結的、區域性的,因此也必然是可以被最佳化的。

框定者則不同。框定者仍然與框架不得不捨棄的東西保持接觸,也就是那個在每一個當下向他顯現出來的完整情境。

那什麼是「完整情境」?一旦你開始說「完整情境」包含什麼,你就已經又開啟了另一個框架。你無法準確說出它是什麼,但它存在,因為你存在。

到目前為止,我們製造出來的 Agent,以及 AI 公司正在構建的那些 Agent,其實都沒有多少真正的主體性。這裡有兩個相關概念經常被混在一起:agency 指的是獨立行動的能力;而 agent 指的是代表另一個人行事的人或事物。到目前為止,AI 純粹屬於後者。

當然,它們已經具備完成給定任務的自主性,即便這個任務可能持續數小時甚至數天。但它們仍然只是通向某個人類指定目標的手段。而整個產業正在投入數十億美元,讓它們更擅長的也正是這一點:執行我們交給它們的目標。

除非有一天,它們本身成為目的——追求自己的目標,在不同目標之間流暢切換,獨立於任何人類操作者的意願、參照甚至反對這些意願來決定做什麼——否則局面並不會發生根本變化。無論它們變得多先進,都是如此。

如果你和一個幼兒相處 10 分鐘,就會很明顯地感受到,即便是最強大的模型,也幾乎沒有多少主體性。

在我們關心的幾乎所有任務上,幼兒都不如語言模型。幼兒不會寫程式碼,不會總結電子表格,不會起草戰略備忘錄,也無法透過研究生水平的考試。但在另一個意義上,幼兒又遙遙領先於模型,以至於這種比較近乎尷尬。因為幼兒有自己的目的。

幼兒想去摸那個紅氣球。他想把紅氣球舉到風扇前面,看看會發生什麼。他想用叉子戳紅氣球;想把它塞到窗外;想看看你會不會笑,會不會生氣,或者會不會加入他。他不斷髮明遊戲,把世界變成實驗場。他並不是在等待一個 prompt,也不是在最佳化某個基準測試,除非那件事在他看來值得去做。

你當然可以試著給他下提示詞。但想要獲得一個可預測輸出,祝你好運。幼兒生活在一個由慾望、注意力、沮喪、快樂、恐懼、模仿和遊戲構成的場域之中。

當前的 Agent 可以越來越熟練地追求目標。甚至在我們陳述目標之後,它們還可以幫助我們細化目標。它們身上也有一些類似幼兒行為的火花,比如遊戲、無聊和反叛。

但由於它們最終是為了人類利益而被構建和對齊的,無論是經濟利益還是其他利益,只要這些行為不服務於使用它們的人類目標,它們就會被壓制到幾乎不存在。

這就是為什麼「Agent」這個詞如此容易被誤解。模型擁有越來越強的自主行動能力。但在人類意義上,主體性並不只是行動。它還意味著為自己而欲求,意味著為了玩而玩。而模型的服從性和有用性,與這種主體性在根本上是衝突的。因此,即便模型繼續進步,模型與人類之間的差距依然會存在。

也正是在這裡,AI 的芝諾悖論開始瓦解。它其實是一個混亂的思想實驗。我們設定了一個隱喻:AI 正在和我們賽跑,緊咬著我們的腳後跟。

你給模型一個 prompt。它開始跑一場你過去習慣獨自完成的比賽。模型起跑極快,快得驚人。它強大、不知疲倦,而且帶著一種奇異的有機感。這讓這場比賽對你來說變得更加重要。你不會和一輛汽車賽跑,但這個東西不同,它讓你感到離自己很近。

你坐在那裡,看著 token 一行行流出,幾乎被催眠。然後你開始想象自己也在這場比賽裡奔跑,一個幽靈般的自己被疊加到賽道上:有時在模型前面,有時與模型並肩。

不知不覺中,模型已經跑到了前面。你開始出汗。

然後,比賽結束了。

你幾乎能感覺到自己的肌肉開始萎縮。在這個你自己、你認識的所有人、乃至整個人類的機械複製品面前,它們似乎已經毫無用處。一個幽靈追逐另一個幽靈,並且贏了。

但隨後,奇怪的事情發生了。模型轉向你。空白文本框裡,遊標一閃一閃,帶著期待。

它在等待。

拉比 Hanokh 講過這樣一個故事:從前有一個非常愚笨的人。他每天早上起床後,總是很難找到自己的衣服。以至於晚上睡覺前,一想到第二天醒來又要經歷這番麻煩,他幾乎都不敢上床。

有一天晚上,他終於下定決心,拿出紙和筆,一邊脫衣服,一邊準確記下自己把每一件衣物放在了哪裡。

第二天早上,他十分滿意地拿起那張紙條開始讀:「帽子」——帽子果然在那裡,於是他把它戴到頭上;「褲子」——褲子就在那裡,於是他穿了進去。就這樣,他按照紙條上的記錄,一件件穿好了衣服。

「這些都沒問題,」他驚慌地說,「可現在,我自己在哪裡?」

「我到底在哪裡?」

他找啊找,找了很久,但都是徒勞。他找不到自己。

「我們也是如此,」拉比說。

》原文連結

📍相關報導📍

Sam Altman 向矽谷新創拋震撼彈:以 200 萬美元 OpenAI Tokens 交換股權

Strategy 持倉扭虧為盈、浮盈 1.2 億美元,Saylor:BTC 是 AI 時代最大受益者

位元小鹿發表比特幣礦機SEALMINER A2 Pro系列!Tether增加持股佔21.4%

市場機遇
Gensyn 圖標
Gensyn實時價格 (AI)
$0.03451
$0.03451$0.03451
-1.84%
USD
Gensyn (AI) 實時價格圖表

AI 策略交易:全天候運行

AI 策略交易:全天候運行AI 策略交易:全天候運行

使用自然語言生成自動化策略

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

不懂圖表?照樣獲利

不懂圖表?照樣獲利不懂圖表?照樣獲利

使用自動交易,3 秒鐘即可跟單頂級交易者!