收藏越多越乱?用 AI 建 Wiki

收藏夹、PDF、网页剪藏、聊天记录、读书笔记,堆到最后经常会变成另一种丢失。

东西都在,但想用的时候找不到。找到了,又要重新判断这段资料和之前的结论有没有冲突。AI 能帮忙总结一篇文章,却很难替你维护一套长期知识库。

这就是 LLM Wiki 这个思路吸引人的地方:别再把资料一次次丢给 AI 临时回答,而是先把资料变成一套持续更新的 Wiki。

分散资料很难自然拼成完整知识

Karpathy 的原始想法

Karpathy 那篇 llm-wiki 不是一个具体软件,更像一份可以丢给 Agent 的设计说明。

它抓住的问题很准:大多数 RAG 或文件问答工具,都是在提问时临时从原始资料里找片段,再拼出答案。这样当然能用,但每次提问都像从零开始。需要综合五份资料的问题,模型下次还要重新检索、重新拼接、重新推理。

LLM Wiki 的做法反过来。

原始资料不直接拿来临时问答,而是先由 LLM 增量整理成一套 Markdown Wiki。每来一份新资料,它不只是被索引,还会进入已有结构:更新实体页、概念页、摘要页、交叉引用、矛盾记录和日志。

Karpathy 把它拆成三层:

  • raw sources:原始资料,是事实来源,不让 LLM 随便改。
  • wiki:LLM 生成和维护的 Markdown 页面。
  • schema:告诉 LLM 怎么写、怎么更新、怎么查询的规则文件。

再配三类操作:ingest 导入资料,query 基于 Wiki 提问,lint 定期检查矛盾、孤立页面、过时结论和缺失链接。

这个想法最妙的一句是:Obsidian 是 IDE,LLM 是程序员,Wiki 是代码库。

也就是说,知识库不再只是“存东西的地方”,而是一个可以被持续维护的工程。

nashsu/llm_wiki 做了什么

nashsu/llm_wiki 的价值,是把这套抽象模式做成了一个跨平台桌面应用。

Karpathy 原文更适合会折腾的人:自己建目录,写 schema,开着 Agent 和 Obsidian 一起维护。这个项目则把很多步骤包进界面和流程里,让“个人 Wiki 工程”更接近普通工具,而不是纯手工工作流。

它保留了核心架构:原始资料、Wiki、规则配置、index.mdlog.md[[wikilink]]、YAML front matter、Obsidian 兼容。

同时加了一批对真实使用很关键的东西:

  • purpose.md:说明这个知识库为什么存在、研究范围是什么、关键问题是什么。
  • 两步 ingest:先分析资料,再生成 Wiki 页面。
  • 来源追溯:生成页面保留 sources[],方便回到原始资料核对。
  • 持久化处理队列:导入任务可恢复、可重试、可取消。
  • 文件夹导入和 source folder auto-watch:外部新增、修改、删除资料时能同步处理。
  • Review 系统:把需要人判断的内容单独拎出来。
  • 图谱、社区发现和 graph insights:不仅能搜,还能看关系和知识空白。

LLM Wiki 从原始资料到人工审核的处理流程

这些优化的重点不是“功能变多”,而是把维护成本往下压。

个人知识库最怕中途断掉。刚开始有热情,什么都愿意整理;过一阵子,目录更新、交叉引用、来源标注、旧结论修正,全都变成负担。LLM Wiki 把这些繁琐动作交给模型,但把审核和方向留给人。

这个分工比全自动更靠谱。

便利性在哪里

第一是入口更低。

原始模式需要你会安排目录、会写 Agent 规则、会盯着 LLM 改 Markdown。nashsu/llm_wiki 给的是桌面应用:左侧知识树和文件树,中间聊天,右侧预览。Sources、Search、Graph、Lint、Review、Deep Research、Settings 都有独立入口。

第二是资料类型更多。

项目支持 PDF、DOCX、PPTX、表格、图片、网页剪藏等多种资料。对普通个人知识库来说,这比“只支持 Markdown”重要很多。真实收藏从来不整齐,网页、PDF、会议材料、表格经常混在一起。

第三是检索不只靠向量。

它有关键词检索、可选向量检索、图谱扩展和上下文预算控制。向量搜索可以启用 LanceDB,也可以不用。这个取舍挺好:小知识库先靠目录和图谱就能跑,资料变多后再加 embedding,不必一上来就搭一套完整 RAG。

基于已编译 Wiki 的检索和图谱查询流程

第四是能接 AI Agent。

它提供本地 HTTP API,运行在 127.0.0.1:19828,带 token 保护。外部工具可以列项目、读文件、做混合检索、访问图谱、触发源文件重扫。项目还提供了单独的 agent skill,可以装进 Claude Code / Codex。

这点很有用。个人知识库如果只能在一个应用里查,价值会被锁住;如果 Agent 写文章、做研究、改项目时也能查本地 Wiki,它就变成了一个长期上下文层。

怎么用更稳

它的基本用法不复杂。

先下载安装桌面应用,创建一个项目,选一个适合自己的模板。然后在 Settings 里配置 LLM provider 和模型。接着把资料放进 Sources:PDF、文档、Markdown、网页剪藏都可以。

导入后,看 Activity Panel 的处理状态。LLM 会把资料拆成 Wiki 页面,更新目录和总览。后面可以在 Chat 里提问,也可以去 Graph 看内容之间的关系,再到 Review 里处理需要人工判断的条目。

如果你已经用 Obsidian,也可以把生成的 Wiki 当成一个 vault 来看。Karpathy 原文里那种“Obsidian 看图谱,LLM 负责维护”的感觉,在这里被做成了更完整的应用流程。

更稳的试法,是先拿一个边界清楚的小主题。

比如:

  • 一组读书笔记。
  • 一个产品调研。
  • 一套项目文档。
  • 一个长期学习主题。

不要一开始就把所有收藏都倒进去。资料越杂,越需要先定义 purpose.md:这个知识库要回答什么问题,不收什么内容,哪些判断必须人工确认。

LLM Wiki 更适合长期主题,不适合替代最终判断

它不是万能收藏箱

LLM Wiki 适合解决“收藏越多越乱”的问题,但它不是把所有资料自动变成真理的机器。

法律、医疗、财务、商业机密这类内容,不能把生成结论当最终答案。它更适合帮你整理材料、暴露关系、提示矛盾和待审核项。最后该信什么,还是要人决定。

它也不一定适合一次性小任务。如果只是总结一篇文章,聊天窗口就够了。LLM Wiki 的优势在长期:资料会不断增加,以后还会回头查,而且查的时候需要知道来处。

Karpathy 给的是一个很漂亮的理论骨架:让 LLM 维护 Wiki,让知识持续复利。nashsu/llm_wiki 做的是把这个骨架变成工具:有桌面界面,有导入队列,有图谱,有 Review,有 Web Clipper,有本地 API。

各种收藏越积越多时,真正缺的不是再多一个收藏夹,而是一套能持续整理、能回溯来源、还能让人审核的工作流。

这就是 LLM Wiki 值得试的地方。

项目地址:https://github.com/nashsu/llm_wiki