為下一個模型而寫 (Build for the Next Model)

概述

Anthropic「Code with Claude」大會中三場演講(Alex Albert 能力曲線、Matt 思考槓桿、Lucas 擴張工具箱)共同提出的開發哲學。核心命題:任何你寫來「補償模型不可靠」的程式碼,半衰期只有幾個月;連接模型到你獨有世界的程式碼,價值會複利成長。

為下一個模型而寫,別為上一個。— Lucas @ Anthropic


三大演講脈絡

一、能力曲線 (The Capability Curve) — Alex Albert

模型能力在一年內大幅躍進(SWE-bench Verified:62 → 87),且進步會自我複利。

三大進步領域:

  • 規劃能力:從先動手後思考 → 先讀完整體再擬策略
  • 錯誤復原:從死亡迴圈卡死 → 懂得退回來換角度
  • 長程注意力:從忘記系統提示 → 數十萬 token 維持一致性

開發者建議:

  1. 先從 evals 下手,貼近真實任務分布,確保未飽和
  2. 對鷹架做減法 — 新模型可能不需要舊的 scaffolding
  3. 給模型發揮空間(adaptive thinking、工具權限、閉合迴圈)

二、思考槓桿 (The Thinking Lever) — Matt

推理時算力(test-time compute)是一條獨立的模型改進路徑。同一個模型,光是讓它多花時間,結果就會更好。

三種 token: 思考 token、工具呼叫 token、文字 token

適應性思考 (Adaptive Thinking): Claude 完全自由,想在哪一步思考都行。從固定順序 → 交錯思考 → 適應性思考。

Effort 旋鈕(取代 thinking 開關):

  • Extra high:Opus 4.7 預設,多數 coding 最佳
  • 口訣:讓第一個 token 快 → 小模型;讓最後一個 token 快 → 大模型開低 effort

重要觀念: thinking 開關不是努力程度,effort 才是。別開關模型核心能力,而是表達你要它多拚。

三、擴張工具箱 (The Expanding Toolkit) — Lucas

去年自己搭的鷹架,今年隨模型一起出貨。

被模型吸收的四個能力:

  1. 工具使用:自寫路由器 → 一次性丟全部工具
  2. 上下文管理:自搭記憶系統 → 百萬 token + 壓縮/編輯
  3. 程式碼執行:找 VM 開沙箱 → 內建沙箱一次往返
  4. 操作電腦:影像縮放膠水 → 原生解析度 1:1 座標

核心鐵則

補償模型(重試、路由器、規劃器、驗證迴圈)→ 半衰期以月計
連接你的世界(工具、上下文、權限驗證、資料)→ 會複利成長

「模型無法吸收它看不到的東西。」 把專屬於你的脈絡餵給它,遠比替它補短處有價值。

關鍵不變量:Evals

evals 是三場演講共同的不變量:

  • 判斷該不該換模型的依據
  • 決定 effort 程度的工具
  • 驗證「拿掉鷹架後表現有沒有變好」的尺

實戰啟發

  • 每次新模型發布,拿 evals 重測一次
  • Prompt 會一代代累積,定期砍掉已用不到的指令
  • 別用 thinking 開關代替 effort 旋鈕
  • 替 agent 設計閉合迴圈(讓它能檢查自己的輸出)
  • 投資在「模型看不到的東西」上(你的資料、工具、權限、獨有脈絡)

相關連結

來源