為下一個模型而寫,別為上一個:Anthropic 三場演講的開發心法

來源:愛好 AI 工程 Blog(https://blog.aihao.tw) 發布日期:2026-06-01 事件:Anthropic「Code with Claude」大會三場演講


最近 Anthropic 的 Code with Claude 大會釋出了一系列演講,其中有三場特別值得連在一起看:Alex Albert 的 The Capability Curve(能力曲線)、Matt 的 The Thinking Lever(思考這根槓桿),還有 Lucas 的 The Expanding Toolkit(不斷擴張的工具箱)。

三位都是 Anthropic 的 research PM,各講各的主題:一個談模型能力怎麼進步、一個談推理時的算力怎麼花、一個談工具生態怎麼長進模型裡。但三場連起來聽完,發現它們其實是從不同角度在講同一件事——你該為「下一個」模型寫程式,而不是為「上一個」。這句話正是 Lucas 最後一張投影片的標題:「為下一個模型而寫,別為上一個」(Build for the next model, not the last one)。

1. Alex Albert:能力曲線 (The Capability Curve)

一年內的進步

SWE-bench Verified:Sonnet 3.7(62 分)→ Opus 4.7(87 分)。25 分的跳躍意味著那些一年前 Sonnet 3.7 會搞砸的困難任務,Opus 4.7 成功的機率是它的三倍以上。

對照示範:同一句 prompt 要求「複製出 Claude.ai」。Sonnet 4 做出黑白通用聊天介面、一送出就報錯;Opus 4.7 直接有 Claude 配色、正確打 API、記住舊對話、行內渲染圖表、實作深色模式,且程式碼行數更少。

三個進步領域

  1. 規劃能力:舊模型「先動手、後思考」→ 新模型先讀完全部、擬好策略再動手
  2. 錯誤復原:舊模型陷入「死亡迴圈」(doom loop)卡死 → 新模型懂得退回來換角度
  3. 長程注意力:舊模型做久忘記系統提示 → 新模型能在數十萬 token 跨度維持一致性

複利效應:更好的規劃 + 更少的錯誤 + 跑得更久的 agent = 端到端任務表現明顯提升。

給開發者的三個建議

  1. 先從 evals 下手:要有 evals,且要貼近真實任務分布。確保 evals 沒飽和,拿新模型重測。有時候最好的優化就只是換上新模型。
  2. 對鷹架做減法:新模型可能不需要舊的 scaffolding。常常是靠「拿掉」而不是「加上」東西來提升表現。Prompt 也要定期砍掉可能已用不到的指令。
  3. 給模型發揮空間:讓 Claude 自己決定何時思考(adaptive thinking);用受控的方式給更多工具權限;幫 agent 閉合迴圈(讓它能檢查自己的輸出後迭代)。

2. Matt:思考這根槓桿 (The Thinking Lever)

推理時算力 (Test-time Compute)

除了訓練時算力(更大模型、更多資料),推理時讓模型「多花點時間」解問題也能提升表現。同一個 Opus,在一個問題上花更多時間,分數也跟著往上爬,且適用於軟體工程、agentic 搜尋、操作電腦、博士級學術推理。

示範:Opus 4.7 寫車流模擬

  • 低 effort:50 秒、4,600 token → 功能過關但陽春(紅綠燈擺馬路中央)
  • 高 effort:加倍 → 有不同車種、紅綠燈移到路邊、智慧駕駛模型
  • 最高 effort:593 秒、52,893 token → 畫面、燈號、駕駛行為全最逼真

Claude 花的三種 token

  1. 思考 token:內心獨白、一步步推理
  2. 工具呼叫 token:跟外部世界打交道
  3. 文字 token:跟使用者溝通

適應性思考 (Adaptive Thinking)

演進史:固定順序(先思考→工具→文字)→ 交錯思考(工具呼叫之間插入思考)→ 適應性思考(完全自由,任何步驟都能思考,簡單問題可不思考)

適應性思考不是模型路由器,也不是自動開關。它的本質是把「你必須在回應一開始至少花一個思考 token」改成「你想在任何步驟思考都可以」。

Effort 等級指南

  • Max:最難任務才用,小心邊際遞減
  • Extra high:Opus 4.7 預設值,多數 coding 和 agentic 用途最佳設定
  • High:token 和智力平衡的好起點
  • Medium:成本敏感、願意犧牲一點智力
  • Low:範圍小、對延遲敏感的任務

Matt 的口訣:要讓「第一個 token」快,用小模型;要讓「最後一個 token」快,用大模型開低 effort。

重要觀念

別把 thinking 開關當「努力程度」用。打開/關閉 thinking 是在開關模型的核心能力,effort 旋鈕才是「多花 token 換更好答案」的正確表達。就像不會叫同事「把內心獨白打開」一樣。

3. Lucas:不斷擴張的工具箱 (The Expanding Toolkit)

核心主張:去年你得自己搭的鷹架,今年隨模型一起出貨了。別再把模型想成 LLM 盒子,而要把它想成會持續擴張、不斷增強自身能力的工具箱。

四個被模型吸收掉的能力

  1. 工具使用:以前得自己寫路由器(if-條件猜使用者意圖)→ 現在一次 client.messages.create() 丟全部工具,模型自己選
  2. 上下文管理:以前得自己搭記憶系統(chunking、RAG、摘要)→ 現在百萬 token + 伺服器端壓縮 + 上下文編輯,逼近無限上下文
  3. 程式碼執行:以前寫→跑→修是開發者的活(找 VM、開沙箱、餵錯誤訊息)→ 現在內建沙箱,一次 API 往返內跑完
  4. 操作電腦:以前得寫影像膠水(縮放、座標轉換、重試)→ 現在 Opus 4.7 直接吃原生解析度,回傳一比一座標

判斷程式碼價值的鐵則

任何你寫來「補償模型不可靠」的程式碼,半衰期只有幾個月。那種活,留給 Anthropic 就好。

  • ❌ 補償模型(重試、路由器、規劃器、驗證迴圈)→ 半衰期以月計
  • ✅ 連接你的世界(工具、上下文、權限驗證、資料)→ 會複利成長

「模型無法吸收它看不到的東西。」所以把這些餵給它,遠比替它補短處有價值。

4. 三場連起來看

不變量是 evals:判斷該不該換模型的依據、決定努力程度的工具、驗證「拿掉鷹架後表現有沒有變好」的那把尺。

模型會吃掉所有通用的、會過時的東西;真正該擁有的,是那些專屬於你、模型再怎麼進步也複製不走的部分。

相關頁面:replit-agent-eval-scaleaihao-blog