為下一個模型而寫 (Build for the Next Model)
概述
Anthropic「Code with Claude」大會中三場演講(Alex Albert 能力曲線、Matt 思考槓桿、Lucas 擴張工具箱)共同提出的開發哲學。核心命題:任何你寫來「補償模型不可靠」的程式碼,半衰期只有幾個月;連接模型到你獨有世界的程式碼,價值會複利成長。
為下一個模型而寫,別為上一個。— Lucas @ Anthropic
三大演講脈絡
一、能力曲線 (The Capability Curve) — Alex Albert
模型能力在一年內大幅躍進(SWE-bench Verified:62 → 87),且進步會自我複利。
三大進步領域:
- 規劃能力:從先動手後思考 → 先讀完整體再擬策略
- 錯誤復原:從死亡迴圈卡死 → 懂得退回來換角度
- 長程注意力:從忘記系統提示 → 數十萬 token 維持一致性
開發者建議:
- 先從 evals 下手,貼近真實任務分布,確保未飽和
- 對鷹架做減法 — 新模型可能不需要舊的 scaffolding
- 給模型發揮空間(adaptive thinking、工具權限、閉合迴圈)
二、思考槓桿 (The Thinking Lever) — Matt
推理時算力(test-time compute)是一條獨立的模型改進路徑。同一個模型,光是讓它多花時間,結果就會更好。
三種 token: 思考 token、工具呼叫 token、文字 token
適應性思考 (Adaptive Thinking): Claude 完全自由,想在哪一步思考都行。從固定順序 → 交錯思考 → 適應性思考。
Effort 旋鈕(取代 thinking 開關):
- Extra high:Opus 4.7 預設,多數 coding 最佳
- 口訣:讓第一個 token 快 → 小模型;讓最後一個 token 快 → 大模型開低 effort
重要觀念: thinking 開關不是努力程度,effort 才是。別開關模型核心能力,而是表達你要它多拚。
三、擴張工具箱 (The Expanding Toolkit) — Lucas
去年自己搭的鷹架,今年隨模型一起出貨。
被模型吸收的四個能力:
- 工具使用:自寫路由器 → 一次性丟全部工具
- 上下文管理:自搭記憶系統 → 百萬 token + 壓縮/編輯
- 程式碼執行:找 VM 開沙箱 → 內建沙箱一次往返
- 操作電腦:影像縮放膠水 → 原生解析度 1:1 座標
核心鐵則
補償模型(重試、路由器、規劃器、驗證迴圈)→ 半衰期以月計
連接你的世界(工具、上下文、權限驗證、資料)→ 會複利成長
「模型無法吸收它看不到的東西。」 把專屬於你的脈絡餵給它,遠比替它補短處有價值。
關鍵不變量:Evals
evals 是三場演講共同的不變量:
- 判斷該不該換模型的依據
- 決定 effort 程度的工具
- 驗證「拿掉鷹架後表現有沒有變好」的尺
實戰啟發
- 每次新模型發布,拿 evals 重測一次
- Prompt 會一代代累積,定期砍掉已用不到的指令
- 別用 thinking 開關代替 effort 旋鈕
- 替 agent 設計閉合迴圈(讓它能檢查自己的輸出)
- 投資在「模型看不到的東西」上(你的資料、工具、權限、獨有脈絡)
相關連結
- replit-agent-eval-scale — Replit 規模化評測體系,呼應 evals 作為不變量的觀點
- aihao-blog — 報導此概念的媒體來源
- harness-engineering-for-ai-coding — AI Coding Agent 的感測器回饋系統