Replit Agent 規模化評測體系 (Eval at Scale)

概述

Replit 總裁兼 AI 負責人 Michele Catasta 在 Anthropic「Code with Claude」發表的規模化評測架構，回答一個核心問題：當模型、prompt、工具、產品功能全都在高速流動，且每天要面對數百萬使用者出貨時，如何確定 agent 真的有變好？

核心主張：eval 不該是一個分數，而該是一條串流 — 不是給人類消費的數字，而是系統運行所依賴的持續回饋信號。

核心架構：兩根支柱

支柱一：Offline Benchmark — ViBench

出貨前的守門關卡。一個端到端的 vibe coding 公開 benchmark（見 vibench）。

輸入：PRD（產品需求文件），從真實 trace 挑選 20 個案例
自動化 evaluator agent：讀程式碼庫 → 開瀏覽器 → 照自然語言測試計畫逐步驗證
完全與實作無關（implementation-agnostic）：不限制語言或框架
可作為 litmus test 整合進 CI/CD

支柱二：Online Eval — Trace Clustering + A/B Testing

出貨後的持續挖掘系統（內部稱 telescope-system）。

Trace Clustering：把所有 trace 摘要轉 embedding → 按語意分群 → 每晚重新訓練 → 發現長尾問題
A/B Testing：在 agent 裡埋大量監測點（花費、執行時間、使用者情緒），但結果幾乎不會是乾淨的，需要人類判斷
User Sentiment：每次 prompt 都能做情緒分析

ViBench

五種測試情境（由淺到深）

情境	說明	難度
Zero-to-One	輸入 PRD，從零蓋到一	基礎
Vibe-on-Ref	從已能動的 reference 實作加功能	中
Vibe-on-Vibe (Slop-on-Slop)	從 agent 蓋的 MVP 開始再疊功能	最難
Parallel + Merge	分解任務、平行多 agent、合併 patch	高
Decomposition	超大 PRD，agent 自行規劃拆解	高

評分方式

Evaluator agent 先讀整個程式碼庫，再開瀏覽器指向應用，逐步執行自然語言寫的測試計畫。任何一步失敗即彙整生成分數。與 SWE-bench 不同，ViBench 是 完全 greenfield。

關鍵發現

前沿模型領先開源模型近 2 倍
Vibe-on-Vibe (Slop-on-Slop) 是最難的情境—模型在延伸自己寫的程式碼時表現最差
實戰建議：每次新增功能之間必須插入測試步驟

開放性

開源於 vibench.ai
核心（behavioral eval）寫死，input 和 strategy 兩個槽開放
Catasta 主張「不在 eval 上互相競爭」—公開 benchmark 讓所有模型一起進步

Telescope：全自動改進迴圈

運作流程

Discover — trace 分群發現問題（語意分群，非 regex）
Create code changes — coding agent 自動根據 trace/日誌/儀表板開 PR
Evaluate — 重跑 ViBench（litmus test，掉超過 10 分判定壞的）
Release — 有爭議的跑 A/B test，明顯好球直接出貨
Iterate — 假設正確但 PR 不夠完美，繼續迭代再跑 A/B test

90% 由 agent 代勞，但人類品味在四個關鍵點介入。

Cold-start 案例

Telescope 標記出一個小但在成長的群集：環境冷啟動長尾退化。agent 在環境未準備好就開始執行並試圖修環境。因為每次 debug session 長得都不一樣，只靠撈日誌浮現不出來，語意分群才發現它發生頻率相當高。

人類品味 vs 自動化

Catasta 強調人類品味落在四個位置：

假設選擇 — 哪些問題值得花掉迴圈預算
實作架構 — 工程與產品決策
Eval 策展 — 形塑 agent 要爬的那座山
發布核可 — A/B test 不清楚時要不要發布

「一年半前沒什麼品味可言，像生存遊戲。現在 agent 變強、選擇變多，才開始發展品味，且必須跟真實使用者群對齊。」

Replit 80% 決策跟替工程師做 agent 時相反，因為使用者是完全沒寫過程式的知識工作者。

與其他概念的關聯

此架構呼應 harness-engineering-for-ai-coding 中提到的感測器回饋系統概念
Trace clustering 的思路可視為 Agent eval 領域的「語意層觀測」
「Eval 作為串流」的主張挑戰了傳統一次性的 benchmark 模式

實戰啟發

半年前 ROI 不好的 eval 基礎建設，現在因長上下文 + 強推理模型而值得重試
收集三種訊號：trace、產品回饋、基礎設施監測資料
分群幫你排序：當回饋多到喘不過氣，分群告訴你什麼真正重要
Eval 不是最後一道檢查，而是每天出貨更好 agent 的引擎

AI Ark LLM Wiki

Explorer

Replit Agent 規模化評測體系 (Eval at Scale)

Replit Agent 規模化評測體系 (Eval at Scale)

概述

核心架構：兩根支柱

支柱一：Offline Benchmark — ViBench

支柱二：Online Eval — Trace Clustering + A/B Testing

ViBench

五種測試情境（由淺到深）

評分方式

關鍵發現

開放性

Telescope：全自動改進迴圈

運作流程

Cold-start 案例

人類品味 vs 自動化

與其他概念的關聯

實戰啟發

來源

Graph View

目錄

反向連結