最小 RAG 闭环
为什么要学90% 的'AI 不知道我的数据'靠 RAG 解, 不学这个就只剩'训练私模型'一条路。
打个比方RAG 像开卷考试, 把资料摊在桌上, AI 答完会引用第几页。
VibeCoder 场景你做 AI 客服答公司产品问题, 通用模型瞎编——RAG 接到文档, 答案 100% 有出处。
选 10 篇你自己的笔记 → 切块(500 token)→ embed(OpenAI text-embedding-3-small 或 bge)→ 存到 Chroma / Qdrant → 写 1 个最小 demo:query → top-3 → 喂给 LLM → 出答案。
前置Python 基础 · 会装 pip 包
- 01选 10 篇你写的笔记(Markdown)
- 02写 1 个 Python 脚本:切 500 token 块 → embed → 存 Chroma
- 03写 1 个 query 函数:embed 问题 → top-3 → 拼 prompt → 调 LLM
- 04测 5 个问题:3 个知识库里有、2 个故意超出知识库
- 05评:5 个里有 ≥4 个答案在原文中能找到
粘贴到 Claude Code(或任何 LLM 终端)embedding 用 OpenAI / bge;向量库用 Chroma(最简单)
你拥有以下 10 段笔记内容(每段是 1 个知识块)。\n请基于这些块回答用户问题。如果用户问题在某块中能找到,请引用块编号;找不到请直说'知识库中无此信息'。\n\n[10 块内容]\n\n问题:[用户问题]✓ 完成判据5 个问题里 ≥4 个答案在原文中能找到;超出知识库的问题 AI 直说不知道。
坑embedding 模型和 query 端必须用同一个(不能训练用 bge、query 用 OpenAI);chunk 跨段切断语义是最常见失败原因。
参考B5 § RAG 工作流