為下一個模型而寫,別為上一個:Anthropic 三場演講的開發心法
來源:愛好 AI 工程 Blog(https://blog.aihao.tw) 發布日期:2026-06-01 事件:Anthropic「Code with Claude」大會三場演講
最近 Anthropic 的 Code with Claude 大會釋出了一系列演講,其中有三場特別值得連在一起看:Alex Albert 的 The Capability Curve(能力曲線)、Matt 的 The Thinking Lever(思考這根槓桿),還有 Lucas 的 The Expanding Toolkit(不斷擴張的工具箱)。
三位都是 Anthropic 的 research PM,各講各的主題:一個談模型能力怎麼進步、一個談推理時的算力怎麼花、一個談工具生態怎麼長進模型裡。但三場連起來聽完,發現它們其實是從不同角度在講同一件事——你該為「下一個」模型寫程式,而不是為「上一個」。這句話正是 Lucas 最後一張投影片的標題:「為下一個模型而寫,別為上一個」(Build for the next model, not the last one)。
1. Alex Albert:能力曲線 (The Capability Curve)
一年內的進步
SWE-bench Verified:Sonnet 3.7(62 分)→ Opus 4.7(87 分)。25 分的跳躍意味著那些一年前 Sonnet 3.7 會搞砸的困難任務,Opus 4.7 成功的機率是它的三倍以上。
對照示範:同一句 prompt 要求「複製出 Claude.ai」。Sonnet 4 做出黑白通用聊天介面、一送出就報錯;Opus 4.7 直接有 Claude 配色、正確打 API、記住舊對話、行內渲染圖表、實作深色模式,且程式碼行數更少。
三個進步領域
- 規劃能力:舊模型「先動手、後思考」→ 新模型先讀完全部、擬好策略再動手
- 錯誤復原:舊模型陷入「死亡迴圈」(doom loop)卡死 → 新模型懂得退回來換角度
- 長程注意力:舊模型做久忘記系統提示 → 新模型能在數十萬 token 跨度維持一致性
複利效應:更好的規劃 + 更少的錯誤 + 跑得更久的 agent = 端到端任務表現明顯提升。
給開發者的三個建議
- 先從 evals 下手:要有 evals,且要貼近真實任務分布。確保 evals 沒飽和,拿新模型重測。有時候最好的優化就只是換上新模型。
- 對鷹架做減法:新模型可能不需要舊的 scaffolding。常常是靠「拿掉」而不是「加上」東西來提升表現。Prompt 也要定期砍掉可能已用不到的指令。
- 給模型發揮空間:讓 Claude 自己決定何時思考(adaptive thinking);用受控的方式給更多工具權限;幫 agent 閉合迴圈(讓它能檢查自己的輸出後迭代)。
2. Matt:思考這根槓桿 (The Thinking Lever)
推理時算力 (Test-time Compute)
除了訓練時算力(更大模型、更多資料),推理時讓模型「多花點時間」解問題也能提升表現。同一個 Opus,在一個問題上花更多時間,分數也跟著往上爬,且適用於軟體工程、agentic 搜尋、操作電腦、博士級學術推理。
示範:Opus 4.7 寫車流模擬
- 低 effort:50 秒、4,600 token → 功能過關但陽春(紅綠燈擺馬路中央)
- 高 effort:加倍 → 有不同車種、紅綠燈移到路邊、智慧駕駛模型
- 最高 effort:593 秒、52,893 token → 畫面、燈號、駕駛行為全最逼真
Claude 花的三種 token
- 思考 token:內心獨白、一步步推理
- 工具呼叫 token:跟外部世界打交道
- 文字 token:跟使用者溝通
適應性思考 (Adaptive Thinking)
演進史:固定順序(先思考→工具→文字)→ 交錯思考(工具呼叫之間插入思考)→ 適應性思考(完全自由,任何步驟都能思考,簡單問題可不思考)
適應性思考不是模型路由器,也不是自動開關。它的本質是把「你必須在回應一開始至少花一個思考 token」改成「你想在任何步驟思考都可以」。
Effort 等級指南
- Max:最難任務才用,小心邊際遞減
- Extra high:Opus 4.7 預設值,多數 coding 和 agentic 用途最佳設定
- High:token 和智力平衡的好起點
- Medium:成本敏感、願意犧牲一點智力
- Low:範圍小、對延遲敏感的任務
Matt 的口訣:要讓「第一個 token」快,用小模型;要讓「最後一個 token」快,用大模型開低 effort。
重要觀念
別把 thinking 開關當「努力程度」用。打開/關閉 thinking 是在開關模型的核心能力,effort 旋鈕才是「多花 token 換更好答案」的正確表達。就像不會叫同事「把內心獨白打開」一樣。
3. Lucas:不斷擴張的工具箱 (The Expanding Toolkit)
核心主張:去年你得自己搭的鷹架,今年隨模型一起出貨了。別再把模型想成 LLM 盒子,而要把它想成會持續擴張、不斷增強自身能力的工具箱。
四個被模型吸收掉的能力
- 工具使用:以前得自己寫路由器(if-條件猜使用者意圖)→ 現在一次 client.messages.create() 丟全部工具,模型自己選
- 上下文管理:以前得自己搭記憶系統(chunking、RAG、摘要)→ 現在百萬 token + 伺服器端壓縮 + 上下文編輯,逼近無限上下文
- 程式碼執行:以前寫→跑→修是開發者的活(找 VM、開沙箱、餵錯誤訊息)→ 現在內建沙箱,一次 API 往返內跑完
- 操作電腦:以前得寫影像膠水(縮放、座標轉換、重試)→ 現在 Opus 4.7 直接吃原生解析度,回傳一比一座標
判斷程式碼價值的鐵則
任何你寫來「補償模型不可靠」的程式碼,半衰期只有幾個月。那種活,留給 Anthropic 就好。
- ❌ 補償模型(重試、路由器、規劃器、驗證迴圈)→ 半衰期以月計
- ✅ 連接你的世界(工具、上下文、權限驗證、資料)→ 會複利成長
「模型無法吸收它看不到的東西。」所以把這些餵給它,遠比替它補短處有價值。
4. 三場連起來看
不變量是 evals:判斷該不該換模型的依據、決定努力程度的工具、驗證「拿掉鷹架後表現有沒有變好」的那把尺。
模型會吃掉所有通用的、會過時的東西;真正該擁有的,是那些專屬於你、模型再怎麼進步也複製不走的部分。