§ B6·AI 实践2 prompts

训练、微调、对齐常识

你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调，是 AI 时代的常识。

← AI 划重点·← Prev · Embedding 与 RAG 原理·Next · 评估、能力边界与失败模式 →

先读这部分

§ B6

训练、微调、对齐常识

你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调，是 AI 时代的常识。

训练的几个阶段

预训练（Pre-training）。用几万亿 token 的网络文本训一个 base model。成本千万到亿美金级。
SFT（Supervised Fine-Tuning）。用人写的「好问答对」微调 base model，让它从「续写」变成「对话」。成本低很多。
RLHF（Reinforcement Learning from Human Feedback）。用人类对模型回答的排序训练一个 reward model，再用 RL 让模型对齐人类偏好。
DPO / KTO / ORPO。RLHF 的替代品，不需要训 reward model，效果接近。
RLVR（RL from Verifiable Reward）。用可验证的奖励（如代码能否跑通、数学是否做对）做 RL。DeepSeek-R1、OpenAI o 系列都用这个。
Distillation（蒸馏）。用一个大的 teacher model 教一个小的 student model，让小模型也变聪明。

微调：什么时候该用 / 不该用

该用。你的领域术语、输出格式、风格，prompt 写不出来；你需要降低延迟/成本（用小一点的模型微调）。
不该用。你只是想让模型「知道」一些事实。用 RAG。微调教不会新事实。
LoRA / QLoRA。低显存微调技术，一张消费级 GPU 就能微调几十 B 的模型。

知道「微调 ≠ 教模型新知识，微调 = 让模型用你的方式做事」。

进阶：你要 fine-tune 自己的模型再看

一个最小可跑的微调 pipeline：选 base model（HuggingFace）→ 准备数据（ShareGPT 格式）→ 用 LLaMA-Factory / Unsloth / Axolotl → 训练 → 评估 → 部署。

评估：lm-eval-harness、OpenCompass、HELM。课程：HuggingFace 的 Smol Course、Karpathy 的 Let's reproduce GPT-2。

3 场景选方案

为什么要学90% 的项目 prompt + RAG 就够, 不知道这条规律你一上来就烧几周微调。

打个比方选方案像选车——通勤用共享单车就够, 拉货才上卡车。

VibeCoder 场景你想让 AI 懂公司 100 个产品术语, 准备微调, 朋友说'先试 RAG', 半天搞定。

给 3 个虚构项目场景：(a) 让模型熟悉公司内部产品术语 (b) 让模型知道 2026-06 新发布的功能 (c) 让模型按公司格式输出合同摘要。先自己选方案（prompt / RAG / 微调 / 组合），再用 AI 审你的选择。

前置读过 B1 + B2 + B5

01读 3 个场景（你虚构或公司真实）
02自己先选方案 + 写理由
03让 AI 评你的选择，给出它的选择
04对比差异、修正你的判断
05总结判定规则：什么时候 prompt 就够、什么时候 RAG、什么时候真的需要微调

粘贴到 Claude Code（或任何 LLM 终端）

请评估以下 3 个项目场景的 AI 方案选择：\n场景 A：公司 100 个产品名 + 200 个术语表，希望模型用对术语\n场景 B：产品每周发版，希望模型知道最新功能\n场景 C：合同必须按公司 5 段式模板输出\n\n请逐个回答：1) 推荐方案（prompt / RAG / 微调 / 组合）2) 理由 3) 实施成本量级。

✓ 完成判据3 场景全部选对（AI 评 + 自己评一致），并能用 1 句话讲清每条决策的判定规则。

坑'想教模型新事实' = RAG（不是微调）；'想改输出风格' = 微调或 prompt；'想教领域推理' = 微调 + 高质量数据。90% 的项目 prompt + RAG 就够，别一开始就上微调。

参考B6 § 何时该用 / 不该用

训练 pipeline 串讲

为什么要学5 步训练流程是 AI 圈的'行话', 听人讲'我们用 DPO 微调'你得懂在讲什么。

打个比方5 步像培养学生——读万卷书、做例题、老师打分、自己琢磨、做对就奖。

VibeCoder 场景朋友说'我们用 RLHF 微调客服', 你能立刻讲'训 reward model 再 RL', 不一脸懵。

让 AI 用一个'训狗'的比喻解释预训练 → SFT → RLHF → DPO → RLVR 全流程，并标出每一步的'信号源'和'目标'。自己再复述一遍，能在 30 秒内讲清。

前置B6 § 训练的几个阶段读过

01让 AI 用比喻讲 5 步
02自己复述一遍（不开 AI 参考）
03标出每步：输入数据 / 目标 / 成本量级
04让 AI 给你出 3 道判断题（哪个阶段用、为什么）
05自测到全对为止

粘贴到 Claude Code（或任何 LLM 终端）

请用训狗的比喻把训练 pipeline 讲清楚：\n1) 预训练\n2) SFT\n3) RLHF\n4) DPO\n5) RLVR\n\n每步用 1-2 句比喻，并标出：\n- 信号源（数据从哪来）\n- 训练目标（loss 是什么）\n- 成本量级

✓ 完成判据30 秒内讲清 5 步各是什么、解决什么问题、能区分 RLHF 和 DPO。

坑容易把 RLHF 和 DPO 混；区分点是'训不训 reward model'——RLHF 训一个 reward model 再 RL，DPO 直接偏好对训，没有 reward model 这一步。

参考B6 § 训练 pipeline

← 返回 AI 划重点回到首页 →