Replit Agent 規模化評測體系 (Eval at Scale)
概述
Replit 總裁兼 AI 負責人 Michele Catasta 在 Anthropic「Code with Claude」發表的規模化評測架構,回答一個核心問題:當模型、prompt、工具、產品功能全都在高速流動,且每天要面對數百萬使用者出貨時,如何確定 agent 真的有變好?
核心主張:eval 不該是一個分數,而該是一條串流 — 不是給人類消費的數字,而是系統運行所依賴的持續回饋信號。
核心架構:兩根支柱
支柱一:Offline Benchmark — ViBench
出貨前的守門關卡。一個端到端的 vibe coding 公開 benchmark(見 vibench)。
- 輸入:PRD(產品需求文件),從真實 trace 挑選 20 個案例
- 自動化 evaluator agent:讀程式碼庫 → 開瀏覽器 → 照自然語言測試計畫逐步驗證
- 完全與實作無關(implementation-agnostic):不限制語言或框架
- 可作為 litmus test 整合進 CI/CD
支柱二:Online Eval — Trace Clustering + A/B Testing
出貨後的持續挖掘系統(內部稱 telescope-system)。
- Trace Clustering:把所有 trace 摘要轉 embedding → 按語意分群 → 每晚重新訓練 → 發現長尾問題
- A/B Testing:在 agent 裡埋大量監測點(花費、執行時間、使用者情緒),但結果幾乎不會是乾淨的,需要人類判斷
- User Sentiment:每次 prompt 都能做情緒分析
ViBench
五種測試情境(由淺到深)
| 情境 | 說明 | 難度 |
|---|---|---|
| Zero-to-One | 輸入 PRD,從零蓋到一 | 基礎 |
| Vibe-on-Ref | 從已能動的 reference 實作加功能 | 中 |
| Vibe-on-Vibe (Slop-on-Slop) | 從 agent 蓋的 MVP 開始再疊功能 | 最難 |
| Parallel + Merge | 分解任務、平行多 agent、合併 patch | 高 |
| Decomposition | 超大 PRD,agent 自行規劃拆解 | 高 |
評分方式
Evaluator agent 先讀整個程式碼庫,再開瀏覽器指向應用,逐步執行自然語言寫的測試計畫。任何一步失敗即彙整生成分數。與 SWE-bench 不同,ViBench 是 完全 greenfield。
關鍵發現
- 前沿模型領先開源模型近 2 倍
- Vibe-on-Vibe (Slop-on-Slop) 是最難的情境—模型在延伸自己寫的程式碼時表現最差
- 實戰建議:每次新增功能之間必須插入測試步驟
開放性
- 開源於 vibench.ai
- 核心(behavioral eval)寫死,input 和 strategy 兩個槽開放
- Catasta 主張「不在 eval 上互相競爭」—公開 benchmark 讓所有模型一起進步
Telescope:全自動改進迴圈
運作流程
- Discover — trace 分群發現問題(語意分群,非 regex)
- Create code changes — coding agent 自動根據 trace/日誌/儀表板開 PR
- Evaluate — 重跑 ViBench(litmus test,掉超過 10 分判定壞的)
- Release — 有爭議的跑 A/B test,明顯好球直接出貨
- Iterate — 假設正確但 PR 不夠完美,繼續迭代再跑 A/B test
90% 由 agent 代勞,但人類品味在四個關鍵點介入。
Cold-start 案例
Telescope 標記出一個小但在成長的群集:環境冷啟動長尾退化。agent 在環境未準備好就開始執行並試圖修環境。因為每次 debug session 長得都不一樣,只靠撈日誌浮現不出來,語意分群才發現它發生頻率相當高。
人類品味 vs 自動化
Catasta 強調人類品味落在四個位置:
- 假設選擇 — 哪些問題值得花掉迴圈預算
- 實作架構 — 工程與產品決策
- Eval 策展 — 形塑 agent 要爬的那座山
- 發布核可 — A/B test 不清楚時要不要發布
「一年半前沒什麼品味可言,像生存遊戲。現在 agent 變強、選擇變多,才開始發展品味,且必須跟真實使用者群對齊。」
Replit 80% 決策跟替工程師做 agent 時相反,因為使用者是完全沒寫過程式的知識工作者。
與其他概念的關聯
- 此架構呼應 harness-engineering-for-ai-coding 中提到的感測器回饋系統概念
- Trace clustering 的思路可視為 Agent eval 領域的「語意層觀測」
- 「Eval 作為串流」的主張挑戰了傳統一次性的 benchmark 模式
實戰啟發
- 半年前 ROI 不好的 eval 基礎建設,現在因長上下文 + 強推理模型而值得重試
- 收集三種訊號:trace、產品回饋、基礎設施監測資料
- 分群幫你排序:當回饋多到喘不過氣,分群告訴你什麼真正重要
- Eval 不是最後一道檢查,而是每天出貨更好 agent 的引擎