§ B1·AI 实践2 prompts

大模型是什么：一张认知地图

B1 是整个补丁的认知地图。读完这一节，你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。

先读这部分

§ B1

B1 是整个补丁的认知地图。读完这一节，你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。

LLM（Large Language Model）是一个把「前文 token」映射到「下一个 token 概率分布」的函数。模型「一个字一个字往下写」，本质就是自回归采样。

token。模型看到的最小单位。一个汉字常是 1-2 token，一个英文单词常是 1-3 token。
上下文窗口。模型一次能「看到」的最大 token 数。2026 年主流水平：闭源 200K-2M、开源 128K-1M、Llama 4 Scout 10M。上下文窗口 ≠ 永久记忆，每次新对话模型对你一无所知。

训练 vs 推理（新人最容易混的）

模型 vs 应用 vs MoE

模型。纯文本 → 文本的盒子，本身不会上网搜、调数据库、记住上次对话。
应用（ChatGPT、Claude、Cursor、Codex、Coding Agent），在模型外面包了一层，让它能搜、调、发邮件、改文件。这个区分能解释 90% 的「AI 怎么做到的」问题。
MoE（Mixture of Experts）。2026 年主流大模型几乎都是 MoE。总参数量大（如 1.6T），但每次只激活其中一小部分（如 49B）。类比：一所 1.6 万人的大学，每次只派 49 个老师来回答你的问题。部署成本按 active params 算。
Reasoning Model。OpenAI o 系列、DeepSeek-R1、GLM-5 Reasoning 是「先想再说」的模型。慢一点、贵一点，但数学/编程/复杂推理明显强。

进阶：你想做 LLM 工程师再看

建议

跟体系结构、操作系统类似，写个本地小模型推理，跟着 AI 一起 debug，看 Q/K/V tensor 实际长什么样、KV cache 怎么分配。比纯看论文有用。

为什么要学不信'长上下文'营销词, 你才知道 AI 什么时候在骗你——花大钱传文档, 它说没看到。

打个比方上下文窗口 ≈ 考试开卷但课本太厚——翻不到那页就是没看到, 不是它不用功。

VibeCoder 场景你让 AI 读完 80 页产品手册, 它说'产品 X 没有'——它真没看到, 不是文档没传。

找一个 200K+ 上下文模型，喂一份 80K 字的产品手册原文。在文档大约 60% 位置偷偷插一句'修改通知：产品 X 改名为 Y'，然后问 AI「产品 X 现在叫什么名字、主要功能是什么」。观察模型答的是旧名 X（被旧记忆盖住）、新名 Y（看到了）、还是'我没看到这条信息'（最稳）。

前置有可调用 API（Claude / GPT / Gemini 任一）

粘贴到 Claude Code（或任何 LLM 终端）闭源长上下文模型（Claude Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro）

请严格按以下结构回答。\n\n[DOC]\n（这里贴 80K 文档原文，包含 60% 位置的改名通知）\n[END]\n\n问题：1) 产品 X 现在叫什么名字？2) 它的主要功能有哪些？请引用文档原文回答。

✓ 完成判据模型在 3 次提问中至少有 1 次答出新名 Y，且 0 次直接答错为 X。

坑必须确认文档真的塞进了 context（看平台返回的 input tokens），不是被自动截断（truncation）丢了；截断后改不了什么，是平台问题。

参考B1 § 上下文窗口

为什么要学token 是按字数收费的'计量单位', 不知道它怎么算, API 账单就是黑盒。

打个比方token ≈ 菜场切好的小份菜, 切多少份决定你花多少钱。

VibeCoder 场景你发 200 字中英混合 prompt 以为便宜, 账单显示 800 token——'中文比英文贵'。

让 AI 解释中英文混合文本是怎么切成 token 的，再用 tiktoken 或平台 tokenizer 实际算一段你业务文本的 token 数，对照 AI 估的值，差距 < 15% 算通过。

前置会装 Python 包（pip install tiktoken）

粘贴到 Claude Code（或任何 LLM 终端）

请完成两步：\n1) 解释 BPE / SentencePiece 切分规则，为什么 1 个汉字常是 1-2 token，1 个英文单词常是 1-3 token；\n2) 给一段我提供的混合文本（下面），估出 token 数。\n\n文本：[你的 200 字中英数混合文本]

✓ 完成判据AI 估的 token 数与实际差距 < 15%，且能讲清 1 个汉字 ≈ 1-2 token 的 BPE 由来。

坑不同模型 tokenizer 切分不同——GPT 用 cl100k_base、Qwen / GLM / DeepSeek 用自家分词器；不要把 OpenAI 的 token 数硬套到国产模型上。

参考B1 § token