來源: debug-groundhog — YouTube 頻道社群貼文 頻道名稱: Debug 土撥鼠 發布時間: 2026-05-28(16 小時前) 類型: YouTube 社群貼文
內容摘要
貼文深入評測 Qwen 3.6 27B 使用 Q4_K_M 量化在單張 RTX 3090 上跑 Agent 工作流的可行性與限制。
重點整理
- 硬體門檻:Q4_K_M GGUF 16.8GB,單張 RTX 3090 24GB 可跑(約 18GB VRAM/RAM 總使用)
- 跑分:SWE-bench Verified 77.2%(Claude Opus 4.6 = 80.8%,差 3.6 分);Terminal-Bench 2.0 59.3%(與 Opus 4.5 並列)
- Q4 軟肋:長鏈 agent 工作流中出現 Context Drift 與工具呼叫決策異常;量化損失在長鏈推理場景的結構性弱點
- 社群建議:短鏈/單輪用 Q4_K_M 划算,10 步以上長鏈建議升至 Q5_K_M 或 Q6_K
- KV Cache:q8_0 KV cache 比 q4 更能保留注意力分布,降低工具呼叫飄移
技術規格
- 架構:Dense non-MoE,Gated DeltaNet hybrid(線性注意力 + 傳統自注意力)
- 原生 Context Window:262K tokens
- Simon Willison 實測:65K context 下 Q4_K_M 達 25.57 tok/s
完整內文
儲存於 raw_assets/debug-groundhog-qwen-36-27b-agent.md