Replit Agent 規模化評測體系 (Eval at Scale)

概述

Replit 總裁兼 AI 負責人 Michele Catasta 在 Anthropic「Code with Claude」發表的規模化評測架構,回答一個核心問題:當模型、prompt、工具、產品功能全都在高速流動,且每天要面對數百萬使用者出貨時,如何確定 agent 真的有變好?

核心主張:eval 不該是一個分數,而該是一條串流 — 不是給人類消費的數字,而是系統運行所依賴的持續回饋信號。


核心架構:兩根支柱

支柱一:Offline Benchmark — ViBench

出貨前的守門關卡。一個端到端的 vibe coding 公開 benchmark(見 vibench)。

  • 輸入:PRD(產品需求文件),從真實 trace 挑選 20 個案例
  • 自動化 evaluator agent:讀程式碼庫 → 開瀏覽器 → 照自然語言測試計畫逐步驗證
  • 完全與實作無關(implementation-agnostic):不限制語言或框架
  • 可作為 litmus test 整合進 CI/CD

支柱二:Online Eval — Trace Clustering + A/B Testing

出貨後的持續挖掘系統(內部稱 telescope-system)。

  • Trace Clustering:把所有 trace 摘要轉 embedding → 按語意分群 → 每晚重新訓練 → 發現長尾問題
  • A/B Testing:在 agent 裡埋大量監測點(花費、執行時間、使用者情緒),但結果幾乎不會是乾淨的,需要人類判斷
  • User Sentiment:每次 prompt 都能做情緒分析

ViBench

五種測試情境(由淺到深)

情境說明難度
Zero-to-One輸入 PRD,從零蓋到一基礎
Vibe-on-Ref從已能動的 reference 實作加功能
Vibe-on-Vibe (Slop-on-Slop)從 agent 蓋的 MVP 開始再疊功能最難
Parallel + Merge分解任務、平行多 agent、合併 patch
Decomposition超大 PRD,agent 自行規劃拆解

評分方式

Evaluator agent 先讀整個程式碼庫,再開瀏覽器指向應用,逐步執行自然語言寫的測試計畫。任何一步失敗即彙整生成分數。與 SWE-bench 不同,ViBench 是 完全 greenfield

關鍵發現

  1. 前沿模型領先開源模型近 2 倍
  2. Vibe-on-Vibe (Slop-on-Slop) 是最難的情境—模型在延伸自己寫的程式碼時表現最差
  3. 實戰建議:每次新增功能之間必須插入測試步驟

開放性

  • 開源於 vibench.ai
  • 核心(behavioral eval)寫死,input 和 strategy 兩個槽開放
  • Catasta 主張「不在 eval 上互相競爭」—公開 benchmark 讓所有模型一起進步

Telescope:全自動改進迴圈

運作流程

  1. Discover — trace 分群發現問題(語意分群,非 regex)
  2. Create code changes — coding agent 自動根據 trace/日誌/儀表板開 PR
  3. Evaluate — 重跑 ViBench(litmus test,掉超過 10 分判定壞的)
  4. Release — 有爭議的跑 A/B test,明顯好球直接出貨
  5. Iterate — 假設正確但 PR 不夠完美,繼續迭代再跑 A/B test

90% 由 agent 代勞,但人類品味在四個關鍵點介入。

Cold-start 案例

Telescope 標記出一個小但在成長的群集:環境冷啟動長尾退化。agent 在環境未準備好就開始執行並試圖修環境。因為每次 debug session 長得都不一樣,只靠撈日誌浮現不出來,語意分群才發現它發生頻率相當高。


人類品味 vs 自動化

Catasta 強調人類品味落在四個位置:

  1. 假設選擇 — 哪些問題值得花掉迴圈預算
  2. 實作架構 — 工程與產品決策
  3. Eval 策展 — 形塑 agent 要爬的那座山
  4. 發布核可 — A/B test 不清楚時要不要發布

「一年半前沒什麼品味可言,像生存遊戲。現在 agent 變強、選擇變多,才開始發展品味,且必須跟真實使用者群對齊。」

Replit 80% 決策跟替工程師做 agent 時相反,因為使用者是完全沒寫過程式的知識工作者。


與其他概念的關聯

  • 此架構呼應 harness-engineering-for-ai-coding 中提到的感測器回饋系統概念
  • Trace clustering 的思路可視為 Agent eval 領域的「語意層觀測」
  • 「Eval 作為串流」的主張挑戰了傳統一次性的 benchmark 模式

實戰啟發

  • 半年前 ROI 不好的 eval 基礎建設,現在因長上下文 + 強推理模型而值得重試
  • 收集三種訊號:trace、產品回饋、基礎設施監測資料
  • 分群幫你排序:當回饋多到喘不過氣,分群告訴你什麼真正重要
  • Eval 不是最後一道檢查,而是每天出貨更好 agent 的引擎

來源