為下一個模型而寫,別為上一個：Anthropic 三場演講的開發心法

來源：愛好 AI 工程 Blog（https://blog.aihao.tw）發布日期：2026-06-01 事件：Anthropic「Code with Claude」大會三場演講

最近 Anthropic 的 Code with Claude 大會釋出了一系列演講，其中有三場特別值得連在一起看：Alex Albert 的 The Capability Curve（能力曲線）、Matt 的 The Thinking Lever（思考這根槓桿），還有 Lucas 的 The Expanding Toolkit（不斷擴張的工具箱）。

三位都是 Anthropic 的 research PM，各講各的主題：一個談模型能力怎麼進步、一個談推理時的算力怎麼花、一個談工具生態怎麼長進模型裡。但三場連起來聽完，發現它們其實是從不同角度在講同一件事——你該為「下一個」模型寫程式，而不是為「上一個」。這句話正是 Lucas 最後一張投影片的標題：「為下一個模型而寫，別為上一個」(Build for the next model, not the last one)。

1. Alex Albert：能力曲線 (The Capability Curve)

一年內的進步

SWE-bench Verified：Sonnet 3.7（62 分）→ Opus 4.7（87 分）。25 分的跳躍意味著那些一年前 Sonnet 3.7 會搞砸的困難任務，Opus 4.7 成功的機率是它的三倍以上。

對照示範：同一句 prompt 要求「複製出 Claude.ai」。Sonnet 4 做出黑白通用聊天介面、一送出就報錯；Opus 4.7 直接有 Claude 配色、正確打 API、記住舊對話、行內渲染圖表、實作深色模式，且程式碼行數更少。

三個進步領域

規劃能力：舊模型「先動手、後思考」→ 新模型先讀完全部、擬好策略再動手
錯誤復原：舊模型陷入「死亡迴圈」（doom loop）卡死 → 新模型懂得退回來換角度
長程注意力：舊模型做久忘記系統提示 → 新模型能在數十萬 token 跨度維持一致性

複利效應：更好的規劃 + 更少的錯誤 + 跑得更久的 agent = 端到端任務表現明顯提升。

給開發者的三個建議

先從 evals 下手：要有 evals，且要貼近真實任務分布。確保 evals 沒飽和，拿新模型重測。有時候最好的優化就只是換上新模型。
對鷹架做減法：新模型可能不需要舊的 scaffolding。常常是靠「拿掉」而不是「加上」東西來提升表現。Prompt 也要定期砍掉可能已用不到的指令。
給模型發揮空間：讓 Claude 自己決定何時思考（adaptive thinking）；用受控的方式給更多工具權限；幫 agent 閉合迴圈（讓它能檢查自己的輸出後迭代）。

2. Matt：思考這根槓桿 (The Thinking Lever)

推理時算力 (Test-time Compute)

除了訓練時算力（更大模型、更多資料），推理時讓模型「多花點時間」解問題也能提升表現。同一個 Opus，在一個問題上花更多時間，分數也跟著往上爬，且適用於軟體工程、agentic 搜尋、操作電腦、博士級學術推理。

示範：Opus 4.7 寫車流模擬

低 effort：50 秒、4,600 token → 功能過關但陽春（紅綠燈擺馬路中央）
高 effort：加倍 → 有不同車種、紅綠燈移到路邊、智慧駕駛模型
最高 effort：593 秒、52,893 token → 畫面、燈號、駕駛行為全最逼真

Claude 花的三種 token

思考 token：內心獨白、一步步推理
工具呼叫 token：跟外部世界打交道
文字 token：跟使用者溝通

適應性思考 (Adaptive Thinking)

演進史：固定順序（先思考→工具→文字）→ 交錯思考（工具呼叫之間插入思考）→ 適應性思考（完全自由，任何步驟都能思考，簡單問題可不思考）

適應性思考不是模型路由器，也不是自動開關。它的本質是把「你必須在回應一開始至少花一個思考 token」改成「你想在任何步驟思考都可以」。

Effort 等級指南

Max：最難任務才用，小心邊際遞減
Extra high：Opus 4.7 預設值，多數 coding 和 agentic 用途最佳設定
High：token 和智力平衡的好起點
Medium：成本敏感、願意犧牲一點智力
Low：範圍小、對延遲敏感的任務

Matt 的口訣：要讓「第一個 token」快，用小模型；要讓「最後一個 token」快，用大模型開低 effort。

重要觀念

別把 thinking 開關當「努力程度」用。打開/關閉 thinking 是在開關模型的核心能力，effort 旋鈕才是「多花 token 換更好答案」的正確表達。就像不會叫同事「把內心獨白打開」一樣。

3. Lucas：不斷擴張的工具箱 (The Expanding Toolkit)

核心主張：去年你得自己搭的鷹架，今年隨模型一起出貨了。別再把模型想成 LLM 盒子，而要把它想成會持續擴張、不斷增強自身能力的工具箱。

四個被模型吸收掉的能力

工具使用：以前得自己寫路由器（if-條件猜使用者意圖）→ 現在一次 client.messages.create() 丟全部工具，模型自己選
上下文管理：以前得自己搭記憶系統（chunking、RAG、摘要）→ 現在百萬 token + 伺服器端壓縮 + 上下文編輯，逼近無限上下文
程式碼執行：以前寫→跑→修是開發者的活（找 VM、開沙箱、餵錯誤訊息）→ 現在內建沙箱，一次 API 往返內跑完
操作電腦：以前得寫影像膠水（縮放、座標轉換、重試）→ 現在 Opus 4.7 直接吃原生解析度，回傳一比一座標

判斷程式碼價值的鐵則

任何你寫來「補償模型不可靠」的程式碼，半衰期只有幾個月。那種活，留給 Anthropic 就好。

❌ 補償模型（重試、路由器、規劃器、驗證迴圈）→ 半衰期以月計
✅ 連接你的世界（工具、上下文、權限驗證、資料）→ 會複利成長

「模型無法吸收它看不到的東西。」所以把這些餵給它，遠比替它補短處有價值。

4. 三場連起來看

不變量是 evals：判斷該不該換模型的依據、決定努力程度的工具、驗證「拿掉鷹架後表現有沒有變好」的那把尺。

模型會吃掉所有通用的、會過時的東西；真正該擁有的，是那些專屬於你、模型再怎麼進步也複製不走的部分。

相關頁面：replit-agent-eval-scale、aihao-blog

AI Ark LLM Wiki

Explorer

aihao-build-for-next-model-2026-06-01