--- title: "LLM Wiki 架构解析:Karpathy 的 Markdown 知识库模式" author: "兔兔AGI" source_url: "https://mp.weixin.qq.com/s/F2JcvwDDT99F_WZexowHGg" published_date: "2026-05-20" feed_name: "微信公众号" tags: [llm-wiki, knowledge-management, karpathy, rag, agent-memory] type: article review_value: 7 review_confidence: 8 review_recommendation: "pass" sha256: 28555233d294ec8dd8d26e320d8787f2850ddce83e71b1219f5eb3b6b2876f95 --- --- # LLM Wiki 架构解析:Karpathy 的 Markdown 知识库模式 > 原文:LLM Wiki 架构解析:Karpathy 的 Markdown 知识库模式 > 作者:兔兔AGI(技术极简主义) > 来源:https://mp.weixin.qq.com/s/F2JcvwDDT99F_WZexowHGg > 日期:2026年5月20日 ## 核心主张 Karpathy 在 `llm-wiki.md` 里提出:让 LLM 在上下文窗口之外维护一个 Markdown Wiki。核心价值是把模型逐渐形成的理解沉淀成可读、可修改、可追溯的 Markdown 知识 artifact。nashsu/llm_wiki 社区将此想法做成桌面开源应用。 **关键区分:** RAG 更像是「把资料找出来」,LLM Wiki 试图解决的是「把读过的资料组织起来」。 ## 架构四层 ``` Raw Sources ↓ Ingest / Knowledge Compile ↓ Markdown Wiki 文件树 ↓ Query / Update Loop ``` ### 1. Raw Sources(真相来源) 原始资料层:论文、网页、PDF、会议记录、代码仓库、规格文档等。**Raw Sources 是地图背后的地形,Wiki 是地图,不是领土。** 对于合同条款、实验条件、关键数字、法规原文,Wiki 不应替代原始证据。 ### 2. Ingest / Knowledge Compile(核心引擎) 在 nashsu/llm_wiki 里分两个阶段: - **Stage 1 (Analysis):** 抽取实体、概念、关系、与已有 Wiki 的连接、潜在矛盾和开放问题——判断「这份资料应该如何进入知识体系」 - **Stage 2 (Generation):** 写出来源摘要、实体页面、概念页面、index.md、log.md 及人工处理的 review items 把「结构判断」和「页面写作」分开,让模型在真正写入文件之前先暴露关系、冲突和缺口。 **根本局限:** 这不是确定性的编译器。LLM 的抽取、归纳和措辞都可能变化,同一份资料每次不一定生成完全相同的 Wiki。 ### 3. Markdown 文件树(持久化层) 典型结构: | 文件/目录 | 作用 | |---------|------| | index.md | 知识库入口,导航和索引 | | log.md | 导入、更新、查询等操作历史 | | overview.md | 整体概览和高层摘要 | | sources/ | 保存或引用原始资料来源 | | entities/ | 人物、项目、组织等实体页面 | | concepts/ | 抽象概念、主题、方法论页面 | | queries/ | 存放查询过程、问题、回答和中间结果 | **核心意义:** 知识变成一组可以被人类打开、编辑、审查、版本管理的文件,而非只是向量化的片段或聊天窗口里的临时回答。 ### 4. Query / Update Loop(查询仍需检索) 当用户提出问题时,系统仍然要搜索 Wiki 页面,也要在必要时回到 Raw Sources。把选中的 Wiki 页面、原文片段、日志历史打包进上下文窗口,再由 LLM 推理、整合和回答。如果回答有价值,可以保存回 Wiki——但这个保存动作应被视为一次可审阅更新。 ## LLM Wiki vs 其他知识系统比较 | 方案 | 核心机制 | 优点 | 局限 | |------|---------|------|------| | RAG | 查询时检索原始片段,再让模型回答 | 保留原文依据,启动成本低 | 不一定沉淀结构化理解,容易重复综合 | | 笔记软件 | 人手动整理资料和观点 | 可控、准确、符合个人习惯 | 维护成本高,更新速度慢 | | 传统知识库 | 人或系统维护稳定文档 | 规范、稳定、便于治理 | 很难跟随资料快速演化 | | **LLM Wiki** | **LLM 辅助维护 Markdown Wiki** | **可读、可改、可复用、可持续更新** | **摘要漂移、错误固化、非确定性** | ## 风险分类 1. **信息损失:** 原始资料被压缩成摘要时,细节、限制条件、例外情况都可能被丢掉 2. **摘要漂移:** 一个概念页随着不同资料导入被多次改写,重点和措辞可能逐渐偏离原始材料 3. **冻结错误:** 一个错误摘要或模糊关系一旦写进 Markdown,就成为后续查询的上下文 4. **非确定性:** 同一资料、不同时间/模型状态/提示词细节,可能生成略有差异的页面结构 **本质:** LLM Wiki 是由 LLM 维护的动态草稿,不是自动正确的知识库。 ## 适用场景 适合:个人研究资料整理、长期项目知识库、代码仓库理解、团队内部资料汇总、技术写作素材库、AI Agent 的长期工作记忆。 不适合:法律、医疗、金融、合规审计等强事实一致性场景——Wiki 页面可以作为入口,不能替代原始证据。 ## 实践建议 1. **保留 raw/,不要让 Wiki 替代原始资料** 2. **建立 index.md 和 log.md,先保证入口和变更记录** 3. **每个重要页面都保留来源链接,方便回查** 4. **对关键概念页设置人工 review,不让模型直接决定最终版本** 5. **增加 lint 规则,检查断链、孤立页面、缺失来源和过期表述** ## 引用 - Karpathy llm-wiki.md: https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f - nashsu/llm_wiki: https://github.com/nashsu/llm_wiki