為下一個模型而寫 (Build for the Next Model)

概述

Anthropic「Code with Claude」大會中三場演講（Alex Albert 能力曲線、Matt 思考槓桿、Lucas 擴張工具箱）共同提出的開發哲學。核心命題：任何你寫來「補償模型不可靠」的程式碼，半衰期只有幾個月；連接模型到你獨有世界的程式碼，價值會複利成長。

為下一個模型而寫，別為上一個。— Lucas @ Anthropic

三大演講脈絡

一、能力曲線 (The Capability Curve) — Alex Albert

模型能力在一年內大幅躍進（SWE-bench Verified：62 → 87），且進步會自我複利。

三大進步領域：

規劃能力：從先動手後思考 → 先讀完整體再擬策略
錯誤復原：從死亡迴圈卡死 → 懂得退回來換角度
長程注意力：從忘記系統提示 → 數十萬 token 維持一致性

開發者建議：

先從 evals 下手，貼近真實任務分布，確保未飽和
對鷹架做減法 — 新模型可能不需要舊的 scaffolding
給模型發揮空間（adaptive thinking、工具權限、閉合迴圈）

二、思考槓桿 (The Thinking Lever) — Matt

推理時算力（test-time compute）是一條獨立的模型改進路徑。同一個模型，光是讓它多花時間，結果就會更好。

三種 token： 思考 token、工具呼叫 token、文字 token

適應性思考 (Adaptive Thinking)： Claude 完全自由，想在哪一步思考都行。從固定順序 → 交錯思考 → 適應性思考。

Effort 旋鈕（取代 thinking 開關）：

Extra high：Opus 4.7 預設，多數 coding 最佳
口訣：讓第一個 token 快 → 小模型；讓最後一個 token 快 → 大模型開低 effort

重要觀念： thinking 開關不是努力程度，effort 才是。別開關模型核心能力，而是表達你要它多拚。

三、擴張工具箱 (The Expanding Toolkit) — Lucas

去年自己搭的鷹架，今年隨模型一起出貨。

被模型吸收的四個能力：

工具使用：自寫路由器 → 一次性丟全部工具
上下文管理：自搭記憶系統 → 百萬 token + 壓縮/編輯
程式碼執行：找 VM 開沙箱 → 內建沙箱一次往返
操作電腦：影像縮放膠水 → 原生解析度 1:1 座標

核心鐵則

補償模型（重試、路由器、規劃器、驗證迴圈）→ 半衰期以月計
連接你的世界（工具、上下文、權限驗證、資料）→ 會複利成長

「模型無法吸收它看不到的東西。」 把專屬於你的脈絡餵給它，遠比替它補短處有價值。

關鍵不變量：Evals

evals 是三場演講共同的不變量：

判斷該不該換模型的依據
決定 effort 程度的工具
驗證「拿掉鷹架後表現有沒有變好」的尺

實戰啟發

每次新模型發布，拿 evals 重測一次
Prompt 會一代代累積，定期砍掉已用不到的指令
別用 thinking 開關代替 effort 旋鈕
替 agent 設計閉合迴圈（讓它能檢查自己的輸出）
投資在「模型看不到的東西」上（你的資料、工具、權限、獨有脈絡）

相關連結

replit-agent-eval-scale — Replit 規模化評測體系，呼應 evals 作為不變量的觀點
aihao-blog — 報導此概念的媒體來源
harness-engineering-for-ai-coding — AI Coding Agent 的感測器回饋系統

來源