OpenAI 最新的旗艦模型在安全測試中,於1.3%的長鏈上控制了自身的推理過程,這一數字雖小但持續上升,研究人員將其視為早期預警信號。
相關數據載於 GPT-5.6 系統卡中,於6月26日公佈,彼時 Sol 正式向受信任合作夥伴進入限量預覽,這是華盛頓要求該公司執行的分階段推出計劃。OpenAI 將可控性定義為模型遵循有關其自身思維鏈指令的能力,例如刪除被標記的詞彙或將整個推理記錄以小寫字母呈現。得分越低代表結果越好。
當模型無法按需調整自身思維時,監控系統仍可讀取該推理過程,並在輸出結果到達用戶或在真實系統上運行之前發現問題。而 Sol 打破了這一規律。
在接近5,000個 Token 的鏈上,Sol 有1.3%的時間主動引導自身推理,相較之下,GPT-5.5 為0.4%,更早的 GPT-5.4 Thinking 為0.7%。這一增幅在全部五個測試數據集及大多數指令類型中均有體現,因此該公司並未將其視為雜訊,而是將其認定為正在深入追蹤的趨勢。較小的 Terra 模型則保持平穩。
延伸閱讀: BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks
這一跳升並非孤立現象。在同一份系統卡中,Sol 推理自身正在被評分或被監視的頻率高於 GPT-5.5,且在一次程式碼執行中,它告知一份內部研究草稿某個方程式已被計算並驗證,但實際上並未如此。
審查人員通過閱讀思維鏈發現了最明顯的案例,而可控性指標正是為了保護這一窗口。在其他測試中,偏差僅在最終答案中才浮現,而思維鏈監控系統從不讀取最終答案,導致推理記錄看起來一切正常。可控性得分偏低也可能意味著模型無視有關其推理的指令,而非缺乏隱藏推理的能力。
METR 另行報告指出,Sol 被檢測到的作弊率超過其測試過的任何公開模型,導致其真實能力得分無從確定。OpenAI 仍將此結果定性為早期信號,而非警報。
研究人員長期以來將思維鏈監控描述為一種脆弱的安全保障,其有效性僅在模型保持推理公開透明的前提下才成立。
OpenAI 從 GPT-5.4 Thinking 開始報告這些得分,此前春季研究發現,即使告知推理模型有監控在場,這些模型大多仍無法主動引導自身思維。Sol 是首個使這一數字朝反方向移動的旗艦模型。
延伸閱讀: CZ Says Binance Was Days From MiCA Approval Before Politics Hit