Chapter IIAI 划重点9 topics

AI 划重点

9 个主题，从 Prompt 到 Agent。把 LLM 当协作者——会写提示词、会接上下文、会评估输出、会排错。

← Index·Prev: CS 划重点

§ B1

大模型是什么：一张认知地图

B1 是整个补丁的认知地图。读完这一节，你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。

LLM（Large Language Model）是一个把「前文 token」映射到「下一个 token 概率分布」的函数。模型「一个字一个字往下写」，本质就是自回归采样。

token。模型看到的最小单位。一个汉字常是 1-2 token，一个英文单词常是 1-3 token。
上下文窗口。模型一次能「看到」的最大 token 数。2026 年主流水平：闭源 200K-2M、开源 128K-1M、Llama 4 Scout 10M。上下文窗口 ≠ 永久记忆，每次新对话模型对你一无所知。

训练 vs 推理（新人最容易混的）

训练。用海量文本+算力让模型学会「下一个 token 怎么猜」。一次训练几周到几个月，烧几百万到几亿美元。
推理。模型已经训练好，用户问一个问题，模型吐一个回答。每次几秒到几分钟，1 美分到几美元。
你用 AI 99% 的时间在花钱推理，跟训练无关。

模型 vs 应用 vs MoE

模型。纯文本 → 文本的盒子，本身不会上网搜、调数据库、记住上次对话。
应用（ChatGPT、Claude、Cursor、Codex、Coding Agent），在模型外面包了一层，让它能搜、调、发邮件、改文件。这个区分能解释 90% 的「AI 怎么做到的」问题。
MoE（Mixture of Experts）。2026 年主流大模型几乎都是 MoE。总参数量大（如 1.6T），但每次只激活其中一小部分（如 49B）。类比：一所 1.6 万人的大学，每次只派 49 个老师来回答你的问题。部署成本按 active params 算。
Reasoning Model。OpenAI o 系列、DeepSeek-R1、GLM-5 Reasoning 是「先想再说」的模型。慢一点、贵一点，但数学/编程/复杂推理明显强。

进阶：你想做 LLM 工程师再看

Transformer 架构细节：Q/K/V、注意力公式、layer norm、RoPE。
训练 pipeline：预训练 → SFT → RLHF/DPO → RLVR。
推理引擎（vLLM、SGLang）的调度与 KV cache 管理。

建议

跟体系结构、操作系统类似，写个本地小模型推理，跟着 AI 一起 debug，看 Q/K/V tensor 实际长什么样、KV cache 怎么分配。比纯看论文有用。

开始实践2 张提示卡

§ B2

Prompt Engineering：与 AI 说话的硬功夫

提示词 = *给模型的「任务说明书」*，不是咒语。三种角色：System / User / Assistant。

必须会的几条原则

说清楚任务。要做什么、做到什么标准、输出格式是什么。
给上下文。背景、约束、用户已经知道的、用户不知道的。
给例子（few-shot）， 1-3 个输入→输出样例比描述规则更有效。
指定输出格式。要 JSON 就明说，要 markdown 表格就明说。

几个有用技巧

Chain of Thought（CoT，思维链）。让模型「一步步想」。最简单的写法：句末加一句「让我们一步步思考」。Reasoning Model（o 系列 / R1 / GLM-5 Reasoning）就是内置 CoT，你不用提示它也会想。
结构化输出。JSON Schema / grammar / function calling，让模型输出可被程序解析。用途：调用工具、写入数据库、自动化工作流。
Self-Critique。让模型先生成答案，再让它检查自己的答案。常用于质量要求高的场景。
Decomposition（任务分解）。复杂任务拆成 3-5 步，每步单独 prompt。一次给 10 件事不如分 10 次问。

进阶：你要做 AI 产品再看

Anthropic 的《Effective context engineering for AI agents》、OpenAI 的《Prompt engineering guide》两份官方文档值得通读。Prompt caching 的成本收益分析见 B3。

开始实践5 张提示卡

§ B3

上下文工程：填满窗口的工程学

2026 年 AI 工程师最被低估、回报率最高的一项技能。Andrej Karpathy 在 2026 年 2 月把它单列为「Agentic Engineering」的核心：*上下文工程 > 提示工程*。

上下文工程（Context Engineering）= 决定每次推理时，哪些信息进、怎么进、什么顺序进、用什么缓存策略。提示词是「一句话怎么说」，上下文工程是「给模型准备一整桌菜」，选什么、怎么摆、哪些可以复用、哪些必须新鲜。

几个关键概念

Prompt Caching。把稳定的 system prompt / 工具定义 / 长文档缓存起来，下次只算变化的部分。效果：API 成本下降 41-80%、TTFT 下降 13-31%（Anthropic / OpenAI / Google 三家实测）。
RAG（Retrieval-Augmented Generation）。模型回答前先从知识库里搜相关文档，塞进上下文。解决「模型知识过时」和「模型不知道你的私域数据」两大问题。
Function Calling / Tool Use。让模型决定什么时候调用外部工具（搜索、查数据库、读文件、跑代码）。模型不再只是「说话」，而是「做事」。
MCP（Model Context Protocol）。2025-2026 出现的开放标准，让模型和工具之间的接口统一。类比 USB-C：以前每个工具一套 API，现在都按 MCP 协议接。Claude Code、Cursor、Codex 都支持，一个 MCP server 在三家里都能用。
Memory。把对话历史之外的信息（用户偏好、项目背景、过往决策）存到上下文之外、用时再拉。三档：session / project / user。
Compaction。当对话快到窗口上限时，把历史摘要后重启上下文。Anthropic Claude Code 用五层 compaction pipeline 处理这件事。

12-point checklist（SurePrompts 2026）

给每条请求设 token 预算（input + output + reserve）
稳定内容放最前面
用 provider 的 cache breakpoint
检索选择性而非穷尽（k=3-8 即可）
上下文分层（system / session / retrieval / user）
控制历史长度（compaction、摘要）
写清楚 groundedness：「如果材料里没有，就说不确定」
显式引用：让模型回答时引用它看过的哪条材料
处理长上下文的「rot」和「needle」，做 needle-in-a-haystack 评测
监控：每个 call 的 prompt hash、cache hit 率、token 数、延迟
跨 call 的状态设计（memory、session、project）
任何改动配 eval，没 eval 的「最佳实践」只是假设

读 Anthropic 2025/09 那篇《Effective context engineering for AI agents》，它把以上全讲了。

开始实践4 张提示卡

§ B4

Agent 与 Coding Agent

Agent = 一个能「感知 → 决策 → 行动 → 观察 → 再决策」的循环系统。*不是*一个会聊天的模型，而是*会调用工具完成任务*的系统。

核心循环与主流范式

每个 Agent 的核心循环都一样：拼上下文 → 调模型 → 模型说要调工具 → 执行工具 → 结果回填 → 再调模型 → 重复。

ReAct（Reason + Act），模型生成「思考 + 工具调用 + 观察」循环往复。绝大多数 Coding Agent 的底座。
Plan-Execute。先让模型出完整计划，用户确认后再分步执行。Cline、Claude Code 的 Plan Mode 是这种。
Multi-Agent。主 Agent 把子任务派给子 Agent，每个子 Agent 有独立上下文，最后汇总。Claude Code 的 Task tool 是这种。
Reflection。Agent 跑完自己审一遍，发现问题再修。

主流 Coding Agent 工具（2026）

Claude Code（Anthropic），终端原生、AGENTS.md/CLAUDE.md 配置、MCP 全套支持、Subagents + Routines。
Codex CLI（OpenAI），终端原生、kernel 级 sandbox（Seatbelt / Landlock / seccomp）、Apache 2.0 开源。
Cursor（Anytsphere）， VS Code 改的桌面应用、Background Agents、Composer 多模型编排。
Cline / Aider / Continue。开源 VS Code / 终端 / IDE 扩展的代表。

选哪个：solo 偏终端 → Claude Code；偏 IDE → Cursor；安全/审计导向 → Codex CLI。

工具调用的工程

工具描述（tool schema）= 模型的「用户手册」，写得越清楚模型用得越准。
工具结果（tool result）要 token-efficient。，只返回模型做下一步决定需要的信息，别把 1MB 的日志塞回去。
错误处理：工具调用失败时让模型能看到错误并重试，不要把错误吞掉。

想做 Agent 系统工程师再看

Claude Code 内部架构（queryLoop、5 层 compaction、27 种 hook event、permission system 7 种模式）值得读一遍源码。关键论文：ReAct、Reflexion、AutoGPT、BabyAGI、Anthropic 的《Building effective agents》。

开始实践4 张提示卡

§ B5

Embedding 与 RAG 原理

Embedding = 把一段文本映射成一个高维向量（768-4096 维浮点数）。语义相近的文本，向量也相近（用*余弦相似度*衡量）。

RAG 的工作流

把你的文档切块（chunking），每块用 embedding 模型转成向量，存到向量数据库（Chroma / Weaviate / Qdrant / pgvector）。
用户提问 → 同样的 embedding 模型转成向量。
在向量库里找最像的 k 个块（k=3-8）。
把这些块塞进 prompt，让模型基于这些块回答。

为什么 RAG 重要 + 几个常见坑

模型权重是几月前的，RAG 可以用你今天的知识。
模型的上下文是有限的，RAG 把 100 万文档里相关的 5 篇找出来。
模型的回答可以被引用，RAG 让答案可追溯到原文。
Chunk 切太大：上下文塞不下、检索粒度太粗。切太小：语义被切碎、检索不准。一般 200-500 token。
只做向量检索：纯相似度匹配对精确匹配（人名、ID、版本号）很差。要 hybrid：BM25（关键词）+ 向量。
不评估：上线后用户感觉「答得不准」，往往是因为从来没量过 retrieval recall / groundedness。

进阶：你要设计 RAG 系统再看

评估指标：retrieval recall@K、groundedness、answer faithfulness、context precision/recall。
高级技巧：query rewriting、HyDE、re-ranking（bge-reranker、cohere rerank）、self-RAG。
读 Anthropic 2025 出的《Contextual Retrieval》，把 chunk 的上下文预先 LLM 一次再 embed，能显著提升 recall。

开始实践3 张提示卡

§ B6

训练、微调、对齐常识

你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调，是 AI 时代的常识。

训练的几个阶段

预训练（Pre-training）。用几万亿 token 的网络文本训一个 base model。成本千万到亿美金级。
SFT（Supervised Fine-Tuning）。用人写的「好问答对」微调 base model，让它从「续写」变成「对话」。成本低很多。
RLHF（Reinforcement Learning from Human Feedback）。用人类对模型回答的排序训练一个 reward model，再用 RL 让模型对齐人类偏好。
DPO / KTO / ORPO。RLHF 的替代品，不需要训 reward model，效果接近。
RLVR（RL from Verifiable Reward）。用可验证的奖励（如代码能否跑通、数学是否做对）做 RL。DeepSeek-R1、OpenAI o 系列都用这个。
Distillation（蒸馏）。用一个大的 teacher model 教一个小的 student model，让小模型也变聪明。

微调：什么时候该用 / 不该用

该用。你的领域术语、输出格式、风格，prompt 写不出来；你需要降低延迟/成本（用小一点的模型微调）。
不该用。你只是想让模型「知道」一些事实。用 RAG。微调教不会新事实。
LoRA / QLoRA。低显存微调技术，一张消费级 GPU 就能微调几十 B 的模型。

知道「微调 ≠ 教模型新知识，微调 = 让模型用你的方式做事」。

进阶：你要 fine-tune 自己的模型再看

一个最小可跑的微调 pipeline：选 base model（HuggingFace）→ 准备数据（ShareGPT 格式）→ 用 LLaMA-Factory / Unsloth / Axolotl → 训练 → 评估 → 部署。

评估：lm-eval-harness、OpenCompass、HELM。课程：HuggingFace 的 Smol Course、Karpathy 的 Let's reproduce GPT-2。

开始实践2 张提示卡

§ B7

评估、能力边界与失败模式

知道模型会怎么翻车，比知道它有多强重要。这是 *AI 边界*真正的清单。

怎么读 benchmark（2026 主流）

通用知识。MMLU、MMLU-Pro、GPQA Diamond、SimpleQA。
数学。AIME 2025/2026、HMMT、Math500。
代码。HumanEval（已饱和）、LiveCodeBench、SWE-bench Verified、SWE-bench Pro、Terminal-Bench。
Agent。GDPval-AA、DeepResearch Bench、τ-bench。
多模态。MMMU、MMMU-Pro、MathVista。

看 benchmark 永远先看任务描述，不要只看分数。HumanEval 90+ 已经不能区分前沿模型。

失败模式（2026 大致共识）

Hallucination（幻觉）。模型自信地说不存在的事实。缓解：RAG、要求引用、限定「如果不知道就说不」。
Jailbreak / Prompt Injection。用户/输入文档里藏指令让模型违背 system prompt。缓解：把用户输入当数据不是指令。
Reasoning Failure。简单任务过度推理、复杂任务推理不足。
Tool Use Failure。长上下文里忘了之前调过什么工具、重复调、调错参数。
Verbosity / Sycophancy。废话太多、附和用户。

能力边界

很强。写中等规模代码、读懂代码、文档/邮件写作、翻译、总结、模式识别、数学（AIME 95+）、单步工具调用。
可用但不完美。跨文件大型 refactor、调试分布式系统、长文档的精确 recall、多步 Agent（>50 步时常常跑偏）、生成可执行 UI 截图。
做不到。实时信息（除非接 RAG/搜索）、精确计数（「图里有几个苹果」）、自我验证、长程规划（>数小时独立任务常常卡住）、私有事实（除非 RAG/微调）。

开始实践4 张提示卡

§ B8

算力、推理优化与本地部署

看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」，这就是这一节的目的。

推理成本由什么决定

显存（VRAM）。模型权重 + KV cache + activation。决定能不能装下。
显存带宽。决定生成 token 的速度（ITL, inter-token latency）。
计算（FLOPs）。决定首 token 延迟（TTFT, time to first token）。

GPU 主流：NVIDIA H100 / H200 / B200（数据中心）、A100（老款但仍主流）、RTX 4090 / 5090（消费级旗舰）。

量化 + KV cache

FP8。H100 原生支持，速度几乎不掉，显存省 50%。
INT4 / GPTQ / AWQ。显存省 75%，精度损失一般 <2%。
INT2 / 三元 / 二元。实验性，极省显存但精度损失大。
KV cache 优化。FP8 KV cache（vLLM）、TurboQuant 4-bit KV cache（SGLang, 3.88x 压缩）、PagedAttention（vLLM）、RadixAttention（SGLang）。

推理框架 + 何时本地部署

vLLM。默认起点，PagedAttention、HuggingFace 兼容最广、硬件支持最全。
SGLang。RadixAttention 对 prefix-reuse 场景极强（multi-turn chatbot、RAG）、结构化输出快。2026 年由 RadixArk 团队独立，融了 4 亿美元。
TensorRT-LLM。NVIDIA 自家、极致 throughput、编译复杂。
TGI / llama.cpp / Ollama / LMStudio。轻量、本地、跑小模型。
本地部署的场景。数据隐私 / 法规要求；用量很大、单次成本高；想要最新开源模型。否则用 API：$0.14-$2 / 百万 token，1 个工程师 1 小时就能上线。

开始实践3 张提示卡

§ B9

多模态与 AI 生态地图

2026 年的模型生态，知道主流玩家、知道 License 差异、能按场景选模型。

模态（Modality）

图像理解。GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Qwen3-VL、Llama 4 全支持。
图像生成。FLUX.2、DALL·E 3、Imagen 3、Midjourney、Stable Diffusion（开源）、GPT-Image-1、Qwen-Image。
视频理解 / 生成。Sora 2、Veo 3、Kling 2.5、Runway Gen-4、Wan 2.1（开源）。
音频（ASR/TTS）。Whisper、ElevenLabs、Cartesia、Seed-ASR、MeloTTS。
音乐。Suno 4.5、Udio 1.5。
3D / 世界模型。Genie 3、Marble、Wan 2.1 3D、Tripo 3.0。

闭源 vs 开源（2026 主流）

闭源第一梯队。Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro。
开源第一梯队。DeepSeek V4 Pro (MIT)、Kimi K2.6 (Modified MIT)、GLM-5.1 (MIT)、Qwen3.6-27B (Apache 2.0)、Llama 4 Scout (Meta license, 700M MAU 限制)、Mistral Small 4 (Apache 2.0)、Gemma 4 (Apache 2.0)。
代码专项。DeepSeek V4 Pro（GDPval-AA 第一）、Kimi K2.6（HumanEval 99%）、Qwen3-Coder-Next（80B/3B active 跑消费卡）、GLM-5.1（SWE-bench Pro 第一）。
极小 / 端侧。Gemma 4 E2B/E4B（手机/笔记本）、Qwen3 系列小尺寸、Llama 3.2 1B/3B。

License + 选模型决策树

MIT。随便用、商用、改、再发布，只保留版权声明。最自由。
Apache 2.0。随便用、商用、改，需要保留版权声明 + 专利授权。几乎一样自由。
Meta Llama License。700M MAU 以下随便用，超过要单独谈。
DeepSeek V4 / V3 自定义 License。商用可用，有一些 use-case 限制。
「开源」的争议：OSI 严格定义认为 只有 MIT / Apache 2.0 / BSD 等才算「真开源」，Meta / DeepSeek License 都是 open-weight 而不是 open-source。

选模型决策树（VibeCoder 视角）

写代码优先：DeepSeek V4 Pro > Kimi K2.6 > Qwen3.6-27B（单卡）> Claude Opus 4.7 > GPT-5.4。长文档/代码库分析：Llama 4 Scout（10M）> DeepSeek V4（1M）> Qwen3.6 Plus（1M）。极致便宜：DeepSeek V4 Flash ($0.14/$0.28 每 1M token)、Qwen3.6 Plus 限时免费。手机/端侧/离线：Gemma 4 E2B/E4B。

开始实践2 张提示卡