§ B6·AI 实践2 prompts

训练、微调、对齐常识

你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调,是 AI 时代的常识。

先读这部分
§ B6

训练、微调、对齐常识

你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调,是 AI 时代的常识。

训练的几个阶段
  1. 预训练(Pre-training)。用几万亿 token 的网络文本训一个 base model。成本千万到亿美金级。
  2. SFT(Supervised Fine-Tuning)。用人写的「好问答对」微调 base model,让它从「续写」变成「对话」。成本低很多。
  3. RLHF(Reinforcement Learning from Human Feedback)。用人类对模型回答的排序训练一个 reward model,再用 RL 让模型对齐人类偏好。
  4. DPO / KTO / ORPO。RLHF 的替代品,不需要训 reward model,效果接近。
  5. RLVR(RL from Verifiable Reward)。用可验证的奖励(如代码能否跑通、数学是否做对)做 RL。DeepSeek-R1、OpenAI o 系列都用这个。
  6. Distillation(蒸馏)。用一个大的 teacher model 教一个小的 student model,让小模型也变聪明。
微调:什么时候该用 / 不该用
  • 该用。你的领域术语、输出格式、风格,prompt 写不出来;你需要降低延迟/成本(用小一点的模型微调)。
  • 不该用。你只是想让模型「知道」一些事实。用 RAG。微调教不会新事实。
  • LoRA / QLoRA。低显存微调技术,一张消费级 GPU 就能微调几十 B 的模型。

知道「微调 ≠ 教模型新知识,微调 = 让模型用你的方式做事」。

进阶:你要 fine-tune 自己的模型再看

一个最小可跑的微调 pipeline:选 base model(HuggingFace)→ 准备数据(ShareGPT 格式)→ 用 LLaMA-Factory / Unsloth / Axolotl → 训练 → 评估 → 部署。

评估:lm-eval-harness、OpenCompass、HELM。课程:HuggingFace 的 Smol Course、Karpathy 的 Let's reproduce GPT-2。

动手做 · 提示词卡

把这段知识变成一段可执行的练习

以下 2 张卡,每张都是一段可复制的提示词。打开 Claude Code(或任何 LLM 终端),把卡里的提示词粘进去,AI 会陪你完成这一步。遇到不会的概念,把 AI 的回答贴回 卡里继续问下一步。可以一次做完,也可以分几次。

1 决策1 概念
Prompt 01决策★★

3 场景选方案

为什么要学90% 的项目 prompt + RAG 就够, 不知道这条规律你一上来就烧几周微调。
打个比方选方案像选车——通勤用共享单车就够, 拉货才上卡车。
VibeCoder 场景你想让 AI 懂公司 100 个产品术语, 准备微调, 朋友说'先试 RAG', 半天搞定。

给 3 个虚构项目场景:(a) 让模型熟悉公司内部产品术语 (b) 让模型知道 2026-06 新发布的功能 (c) 让模型按公司格式输出合同摘要。先自己选方案(prompt / RAG / 微调 / 组合),再用 AI 审你的选择。

前置读过 B1 + B2 + B5
  1. 01读 3 个场景(你虚构或公司真实)
  2. 02自己先选方案 + 写理由
  3. 03让 AI 评你的选择,给出它的选择
  4. 04对比差异、修正你的判断
  5. 05总结判定规则:什么时候 prompt 就够、什么时候 RAG、什么时候真的需要微调
粘贴到 Claude Code(或任何 LLM 终端)
请评估以下 3 个项目场景的 AI 方案选择:\n场景 A:公司 100 个产品名 + 200 个术语表,希望模型用对术语\n场景 B:产品每周发版,希望模型知道最新功能\n场景 C:合同必须按公司 5 段式模板输出\n\n请逐个回答:1) 推荐方案(prompt / RAG / 微调 / 组合)2) 理由 3) 实施成本量级。
✓ 完成判据3 场景全部选对(AI 评 + 自己评一致),并能用 1 句话讲清每条决策的判定规则。
'想教模型新事实' = RAG(不是微调);'想改输出风格' = 微调 或 prompt;'想教领域推理' = 微调 + 高质量数据。90% 的项目 prompt + RAG 就够,别一开始就上微调。
参考B6 § 何时该用 / 不该用
Prompt 02概念★★

训练 pipeline 串讲

为什么要学5 步训练流程是 AI 圈的'行话', 听人讲'我们用 DPO 微调'你得懂在讲什么。
打个比方5 步像培养学生——读万卷书、做例题、老师打分、自己琢磨、做对就奖。
VibeCoder 场景朋友说'我们用 RLHF 微调客服', 你能立刻讲'训 reward model 再 RL', 不一脸懵。

让 AI 用一个'训狗'的比喻解释预训练 → SFT → RLHF → DPO → RLVR 全流程,并标出每一步的'信号源'和'目标'。自己再复述一遍,能在 30 秒内讲清。

前置B6 § 训练的几个阶段 读过
  1. 01让 AI 用比喻讲 5 步
  2. 02自己复述一遍(不开 AI 参考)
  3. 03标出每步:输入数据 / 目标 / 成本量级
  4. 04让 AI 给你出 3 道判断题(哪个阶段用、为什么)
  5. 05自测到全对为止
粘贴到 Claude Code(或任何 LLM 终端)
请用训狗的比喻把训练 pipeline 讲清楚:\n1) 预训练\n2) SFT\n3) RLHF\n4) DPO\n5) RLVR\n\n每步用 1-2 句比喻,并标出:\n- 信号源(数据从哪来)\n- 训练目标(loss 是什么)\n- 成本量级
✓ 完成判据30 秒内讲清 5 步各是什么、解决什么问题、能区分 RLHF 和 DPO。
容易把 RLHF 和 DPO 混;区分点是'训不训 reward model'——RLHF 训一个 reward model 再 RL,DPO 直接偏好对训,没有 reward model 这一步。
参考B6 § 训练 pipeline