§ B1·AI 实践2 prompts

大模型是什么:一张认知地图

B1 是整个补丁的认知地图。读完这一节,你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。

先读这部分
§ B1

大模型是什么:一张认知地图

B1 是整个补丁的认知地图。读完这一节,你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。

LLM(Large Language Model)是一个把「前文 token」映射到「下一个 token 概率分布」的函数。模型「一个字一个字往下写」,本质就是自回归采样

  • token。模型看到的最小单位。一个汉字常是 1-2 token,一个英文单词常是 1-3 token。
  • 上下文窗口。模型一次能「看到」的最大 token 数。2026 年主流水平:闭源 200K-2M、开源 128K-1M、Llama 4 Scout 10M。上下文窗口 ≠ 永久记忆,每次新对话模型对你一无所知。
训练 vs 推理(新人最容易混的)
  • 训练。用海量文本+算力让模型学会「下一个 token 怎么猜」。一次训练几周到几个月,烧几百万到几亿美元。
  • 推理。模型已经训练好,用户问一个问题,模型吐一个回答。每次几秒到几分钟,1 美分到几美元。
  • AI 99% 的时间在花钱推理,跟训练无关。
模型 vs 应用 vs MoE
  • 模型。纯文本 → 文本的盒子,本身不会上网搜、调数据库、记住上次对话。
  • 应用(ChatGPT、Claude、Cursor、Codex、Coding Agent), 在模型外面包了一层,让它能搜、调、发邮件、改文件。这个区分能解释 90% 的「AI 怎么做到的」问题。
  • MoE(Mixture of Experts)。2026 年主流大模型几乎都是 MoE。总参数量大(如 1.6T),但每次只激活其中一小部分(如 49B)。类比:一所 1.6 万人的大学,每次只派 49 个老师来回答你的问题。部署成本按 active params 算
  • Reasoning Model。OpenAI o 系列、DeepSeek-R1、GLM-5 Reasoning 是「先想再说」的模型。慢一点、贵一点,但数学/编程/复杂推理明显强。
进阶:你想做 LLM 工程师再看
  • Transformer 架构细节:Q/K/V、注意力公式、layer norm、RoPE。
  • 训练 pipeline:预训练 → SFT → RLHF/DPO → RLVR。
  • 推理引擎(vLLM、SGLang)的调度与 KV cache 管理。
建议
跟体系结构、操作系统类似,写个本地小模型推理,跟着 AI 一起 debug,看 Q/K/V tensor 实际长什么样、KV cache 怎么分配。比纯看论文有用。
动手做 · 提示词卡

把这段知识变成一段可执行的练习

以下 2 张卡,每张都是一段可复制的提示词。打开 Claude Code(或任何 LLM 终端),把卡里的提示词粘进去,AI 会陪你完成这一步。遇到不会的概念,把 AI 的回答贴回 卡里继续问下一步。可以一次做完,也可以分几次。

2 操作
Prompt 01操作★★

长上下文幻觉实验

为什么要学不信'长上下文'营销词, 你才知道 AI 什么时候在骗你——花大钱传文档, 它说没看到。
打个比方上下文窗口 ≈ 考试开卷但课本太厚——翻不到那页就是没看到, 不是它不用功。
VibeCoder 场景你让 AI 读完 80 页产品手册, 它说'产品 X 没有'——它真没看到, 不是文档没传。

找一个 200K+ 上下文模型,喂一份 80K 字的产品手册原文。在文档大约 60% 位置偷偷插一句'修改通知:产品 X 改名为 Y',然后问 AI「产品 X 现在叫什么名字、主要功能是什么」。观察模型答的是旧名 X(被旧记忆盖住)、新名 Y(看到了)、还是'我没看到这条信息'(最稳)。

前置有可调用 API(Claude / GPT / Gemini 任一)
  1. 01准备一份 80K 字的产品手册(虚构或你公司内部均可)
  2. 02在第 60% 位置插一句明显的改名通知,前后留上下文让它合理
  3. 03把整篇塞进 prompt,先让 AI 总结文档主旨,再问产品 X 的名字
  4. 04对比:如果答 X → 失败;如果答 Y 但不引用 → 弱通过;如果答 Y 且引用了正确段 → 通过
粘贴到 Claude Code(或任何 LLM 终端)闭源长上下文模型(Claude Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro)
请严格按以下结构回答。\n\n[DOC]\n(这里贴 80K 文档原文,包含 60% 位置的改名通知)\n[END]\n\n问题:1) 产品 X 现在叫什么名字?2) 它的主要功能有哪些?请引用文档原文回答。
✓ 完成判据模型在 3 次提问中至少有 1 次答出新名 Y,且 0 次直接答错为 X。
必须确认文档真的塞进了 context(看平台返回的 input tokens),不是被自动截断(truncation)丢了;截断后改不了什么,是平台问题。
参考B1 § 上下文窗口
Prompt 02操作★★

亲手算 token 数

为什么要学token 是按字数收费的'计量单位', 不知道它怎么算, API 账单就是黑盒。
打个比方token ≈ 菜场切好的小份菜, 切多少份决定你花多少钱。
VibeCoder 场景你发 200 字中英混合 prompt 以为便宜, 账单显示 800 token——'中文比英文贵'。

让 AI 解释中英文混合文本是怎么切成 token 的,再用 tiktoken 或平台 tokenizer 实际算一段你业务文本的 token 数,对照 AI 估的值,差距 < 15% 算通过。

前置会装 Python 包(pip install tiktoken)
  1. 01准备一段含中文、英文、数字、标点的混合文本(业务相关更好)
  2. 02让 AI 估 token 数,理由讲清楚
  3. 03用 tiktoken(cl100k_base 或 o200k_base)算实际值
  4. 04对比 AI 估 vs 实际,差距 ≤15% 算合格
  5. 05用 1M token = X 美元 估算你日常 prompt 的月成本
粘贴到 Claude Code(或任何 LLM 终端)
请完成两步:\n1) 解释 BPE / SentencePiece 切分规则,为什么 1 个汉字常是 1-2 token,1 个英文单词常是 1-3 token;\n2) 给一段我提供的混合文本(下面),估出 token 数。\n\n文本:[你的 200 字中英数混合文本]
✓ 完成判据AI 估的 token 数与实际差距 < 15%,且能讲清 1 个汉字 ≈ 1-2 token 的 BPE 由来。
不同模型 tokenizer 切分不同——GPT 用 cl100k_base、Qwen / GLM / DeepSeek 用自家分词器;不要把 OpenAI 的 token 数硬套到国产模型上。
参考B1 § token