LLM Wiki:Karpathy 知識庫模式

由 Andrej Karpathy(OpenAI 共同創辦人、前 Tesla AI 總監)提出的知識庫概念。核心思想是讓 AI 增量構建一個「持久化」的知識庫(Wiki),而非每次從零開始 RAG 檢索。

核心問題:RAG 的無積累困境

傳統 RAG(Retrieval-Augmented Generation)如 ChatGPT、NotebookLM:每次提問,AI 搜索文檔 → 抓取相關片段 → 臨時拼湊答案。問一個類似問題,全部重來。Nothing was saved. Nothing compounds.

解決方案:LLM Wiki

AI 讀取文檔 一次,建立結構化的 Wiki(互連的 Markdown 檔案)。新來源加入時,AI 不只是儲存,而是:

  • 讀取並提取關鍵概念
  • 整合進現有 Wiki:更新既有頁面、為新概念建立新頁面
  • 連結相關概念
  • 標註矛盾(若新來源與 Wiki 既有內容衝突)

隨著時間推移,Wiki 持續增長、越來越豐富。提問時 AI 基於已建構好的知識庫回答,而非從零搜索。

Karpathy 的類比

「把 Obsidian 想像成 IDE,LLM 是程式設計師,Wiki 是程式碼庫。你很少自己寫 Wiki,AI 負責寫和組織。你專注於放什麼進去、問什麼問題。」

三層架構

內容特性
Raw Sources原始文檔(PDF、文章、會議記錄)唯讀,AI 不可修改
WikiAI 建立維護的 Markdown 頁面index、concept、entity、comparison 頁面,互相連結
Schema規則文件(CLAUDE.md)定義 wiki 結構、ingest 流程、格式規則

Schema 文件內容(CLAUDE.md)

  1. Purpose — 知識庫的主題(唯一需要客製化的行)
  2. Folder structure — raw/ 與 wiki/ 位置
  3. Ingest workflow — 讀文檔 → 萃取概念 → 建立/更新頁面 → 更新 index → 記錄異動
  4. Page formatting rules — 摘要置頂、每個主張引用來源、頁面間互相連結
  5. QA behavior — 優先查 Wiki、標註來源、不確定時明確告知

Linting(Wiki 健診)

定期請 AI 檢查 Wiki 健康度,類似程式碼 lint:

  • Contradictions — 頁面間的矛盾主張
  • Outdated claims — 過時資訊
  • Orphan pages — 無任何頁面指向的孤立頁面
  • Missing pages — 被提及但無獨立頁面的概念

Zettelkasten vs LLM Wiki:容器之爭

WenHao Yu(余文豪)在其分析中提出 LLM Wiki 與 Zettelkasten(卡片盒筆記法)的核心分歧 — 一張卡片到底是什麼?

維度Zettelkasten / LYTKarpathy LLM Wiki
單元原子概念(一張卡一件事)主題聚合(一張 page 裝主題 best-of)
分類決策邊界由概念本身決定,免分類須決定主題邊界、哪些 source 併進同一 page
優點歸檔不用多想打開一張就看到全貌
代價靠連結拼出主題全貌重現 folder/tag 時代的分類問題

「Evernote 時代你在問『這個筆記放哪個 folder』。Notion 早期你在問『這個頁面打哪些 tags』。Karpathy wiki 現在在問『這個 source 併進哪張 wiki page』。三個問題的形狀一模一樣:對一個新進來的東西,你要決定它屬於哪個容器。」

Model Collapse 風險

HN 社群指出 LLM 反覆 ingest 自己寫的 wiki 可能造成 Model Collapse — 細節被磨平、風格單一化(Nature 2024 論文論證)。

Vibe Thinking 風險

「把整理外包 = 把思考外包」— 若只讓 AI 產出而不親自理解,wiki 看似有組織但人未內化。

使用情境

  • 學生/研究者:論文閱讀過程中累積結構化知識庫
  • 教師:累積課程資料與發展素材
  • 企業:會議記錄、客戶對話、專案文件 → 新人 onboarding 直接瀏覽 Wiki
  • 個人學習:書摘、Podcast、文章 → 自建百科全書

已知限制

  1. 適合個人規模(~100 篇文檔),大規模需要更多基礎設施
  2. Garbage in, garbage out — 必須策劃來源品質
  3. 需要 coding agent(Claude Code / Codex / Cursor)作為 AI 引擎
  4. AI 可能犯錯(誤分類、錯連結),需定期 lint

相關頁面

參考連結