AI 划重点
9 个主题,从 Prompt 到 Agent。把 LLM 当协作者——会写提示词、会接上下文、会评估输出、会排错。
大模型是什么:一张认知地图
B1 是整个补丁的认知地图。读完这一节,你应该能在 30 秒内讲清 LLM、token、训练 vs 推理、MoE、Reasoning Model 这些词的含义。
LLM(Large Language Model)是一个把「前文 token」映射到「下一个 token 概率分布」的函数。模型「一个字一个字往下写」,本质就是自回归采样。
- token。模型看到的最小单位。一个汉字常是 1-2 token,一个英文单词常是 1-3 token。
- 上下文窗口。模型一次能「看到」的最大 token 数。2026 年主流水平:闭源 200K-2M、开源 128K-1M、Llama 4 Scout 10M。上下文窗口 ≠ 永久记忆,每次新对话模型对你一无所知。
- 训练。用海量文本+算力让模型学会「下一个 token 怎么猜」。一次训练几周到几个月,烧几百万到几亿美元。
- 推理。模型已经训练好,用户问一个问题,模型吐一个回答。每次几秒到几分钟,1 美分到几美元。
- 你用 AI 99% 的时间在花钱推理,跟训练无关。
- 模型。纯文本 → 文本的盒子,本身不会上网搜、调数据库、记住上次对话。
- 应用(ChatGPT、Claude、Cursor、Codex、Coding Agent), 在模型外面包了一层,让它能搜、调、发邮件、改文件。这个区分能解释 90% 的「AI 怎么做到的」问题。
- MoE(Mixture of Experts)。2026 年主流大模型几乎都是 MoE。总参数量大(如 1.6T),但每次只激活其中一小部分(如 49B)。类比:一所 1.6 万人的大学,每次只派 49 个老师来回答你的问题。部署成本按 active params 算。
- Reasoning Model。OpenAI o 系列、DeepSeek-R1、GLM-5 Reasoning 是「先想再说」的模型。慢一点、贵一点,但数学/编程/复杂推理明显强。
- Transformer 架构细节:Q/K/V、注意力公式、layer norm、RoPE。
- 训练 pipeline:预训练 → SFT → RLHF/DPO → RLVR。
- 推理引擎(vLLM、SGLang)的调度与 KV cache 管理。
Prompt Engineering:与 AI 说话的硬功夫
提示词 = *给模型的「任务说明书」*,不是咒语。三种角色:System / User / Assistant。
- 说清楚任务。要做什么、做到什么标准、输出格式是什么。
- 给上下文。背景、约束、用户已经知道的、用户不知道的。
- 给例子(few-shot), 1-3 个输入→输出样例比描述规则更有效。
- 指定输出格式。要 JSON 就明说,要 markdown 表格就明说。
- Chain of Thought(CoT,思维链)。让模型「一步步想」。最简单的写法:句末加一句「让我们一步步思考」。Reasoning Model(o 系列 / R1 / GLM-5 Reasoning)就是内置 CoT,你不用提示它也会想。
- 结构化输出。JSON Schema / grammar / function calling,让模型输出可被程序解析。用途:调用工具、写入数据库、自动化工作流。
- Self-Critique。让模型先生成答案,再让它检查自己的答案。常用于质量要求高的场景。
- Decomposition(任务分解)。复杂任务拆成 3-5 步,每步单独 prompt。一次给 10 件事不如分 10 次问。
Anthropic 的《Effective context engineering for AI agents》、OpenAI 的《Prompt engineering guide》两份官方文档值得通读。Prompt caching 的成本收益分析见 B3。
上下文工程:填满窗口的工程学
2026 年 AI 工程师最被低估、回报率最高的一项技能。Andrej Karpathy 在 2026 年 2 月把它单列为「Agentic Engineering」的核心:*上下文工程 > 提示工程*。
上下文工程(Context Engineering)= 决定每次推理时,哪些信息进、怎么进、什么顺序进、用什么缓存策略。提示词是「一句话怎么说」,上下文工程是「给模型准备一整桌菜」,选什么、怎么摆、哪些可以复用、哪些必须新鲜。
- Prompt Caching。把稳定的 system prompt / 工具定义 / 长文档缓存起来,下次只算变化的部分。效果:API 成本下降 41-80%、TTFT 下降 13-31%(Anthropic / OpenAI / Google 三家实测)。
- RAG(Retrieval-Augmented Generation)。模型回答前先从知识库里搜相关文档,塞进上下文。解决「模型知识过时」和「模型不知道你的私域数据」两大问题。
- Function Calling / Tool Use。让模型决定什么时候调用外部工具(搜索、查数据库、读文件、跑代码)。模型不再只是「说话」,而是「做事」。
- MCP(Model Context Protocol)。2025-2026 出现的开放标准,让模型和工具之间的接口统一。类比 USB-C:以前每个工具一套 API,现在都按 MCP 协议接。Claude Code、Cursor、Codex 都支持,一个 MCP server 在三家里都能用。
- Memory。把对话历史之外的信息(用户偏好、项目背景、过往决策)存到上下文之外、用时再拉。三档:session / project / user。
- Compaction。当对话快到窗口上限时,把历史摘要后重启上下文。Anthropic Claude Code 用五层 compaction pipeline 处理这件事。
- 给每条请求设 token 预算(input + output + reserve)
- 稳定内容放最前面
- 用 provider 的 cache breakpoint
- 检索选择性而非穷尽(k=3-8 即可)
- 上下文分层(system / session / retrieval / user)
- 控制历史长度(compaction、摘要)
- 写清楚 groundedness:「如果材料里没有,就说不确定」
- 显式引用:让模型回答时引用它看过的哪条材料
- 处理长上下文的「rot」和「needle」,做 needle-in-a-haystack 评测
- 监控:每个 call 的 prompt hash、cache hit 率、token 数、延迟
- 跨 call 的状态设计(memory、session、project)
- 任何改动配 eval,没 eval 的「最佳实践」只是假设
读 Anthropic 2025/09 那篇《Effective context engineering for AI agents》,它把以上全讲了。
Agent 与 Coding Agent
Agent = 一个能「感知 → 决策 → 行动 → 观察 → 再决策」的循环系统。*不是*一个会聊天的模型,而是*会调用工具完成任务*的系统。
每个 Agent 的核心循环都一样:拼上下文 → 调模型 → 模型说要调工具 → 执行工具 → 结果回填 → 再调模型 → 重复。
- ReAct(Reason + Act), 模型生成「思考 + 工具调用 + 观察」循环往复。绝大多数 Coding Agent 的底座。
- Plan-Execute。先让模型出完整计划,用户确认后再分步执行。Cline、Claude Code 的 Plan Mode 是这种。
- Multi-Agent。主 Agent 把子任务派给子 Agent,每个子 Agent 有独立上下文,最后汇总。Claude Code 的 Task tool 是这种。
- Reflection。Agent 跑完自己审一遍,发现问题再修。
- Claude Code(Anthropic), 终端原生、AGENTS.md/CLAUDE.md 配置、MCP 全套支持、Subagents + Routines。
- Codex CLI(OpenAI), 终端原生、kernel 级 sandbox(Seatbelt / Landlock / seccomp)、Apache 2.0 开源。
- Cursor(Anytsphere), VS Code 改的桌面应用、Background Agents、Composer 多模型编排。
- Cline / Aider / Continue。开源 VS Code / 终端 / IDE 扩展的代表。
选哪个:solo 偏终端 → Claude Code;偏 IDE → Cursor;安全/审计导向 → Codex CLI。
- 工具描述(tool schema)= 模型的「用户手册」,写得越清楚模型用得越准。
- 工具结果(tool result)要 token-efficient。, 只返回模型做下一步决定需要的信息,别把 1MB 的日志塞回去。
- 错误处理:工具调用失败时让模型能看到错误并重试,不要把错误吞掉。
Embedding 与 RAG 原理
Embedding = 把一段文本映射成一个高维向量(768-4096 维浮点数)。语义相近的文本,向量也相近(用*余弦相似度*衡量)。
- 把你的文档切块(chunking),每块用 embedding 模型转成向量,存到向量数据库(Chroma / Weaviate / Qdrant / pgvector)。
- 用户提问 → 同样的 embedding 模型转成向量。
- 在向量库里找最像的 k 个块(k=3-8)。
- 把这些块塞进 prompt,让模型基于这些块回答。
- 模型权重是几月前的,RAG 可以用你今天的知识。
- 模型的上下文是有限的,RAG 把 100 万文档里相关的 5 篇找出来。
- 模型的回答可以被引用,RAG 让答案可追溯到原文。
- Chunk 切太大:上下文塞不下、检索粒度太粗。切太小:语义被切碎、检索不准。一般 200-500 token。
- 只做向量检索:纯相似度匹配对精确匹配(人名、ID、版本号)很差。要 hybrid:BM25(关键词)+ 向量。
- 不评估:上线后用户感觉「答得不准」,往往是因为从来没量过 retrieval recall / groundedness。
- 评估指标:retrieval recall@K、groundedness、answer faithfulness、context precision/recall。
- 高级技巧:query rewriting、HyDE、re-ranking(bge-reranker、cohere rerank)、self-RAG。
- 读 Anthropic 2025 出的《Contextual Retrieval》,把 chunk 的上下文预先 LLM 一次再 embed,能显著提升 recall。
训练、微调、对齐常识
你*用* AI 的人不需要自己训模型。但知道训练 pipeline 是什么样子、知道什么时候该上微调,是 AI 时代的常识。
- 预训练(Pre-training)。用几万亿 token 的网络文本训一个 base model。成本千万到亿美金级。
- SFT(Supervised Fine-Tuning)。用人写的「好问答对」微调 base model,让它从「续写」变成「对话」。成本低很多。
- RLHF(Reinforcement Learning from Human Feedback)。用人类对模型回答的排序训练一个 reward model,再用 RL 让模型对齐人类偏好。
- DPO / KTO / ORPO。RLHF 的替代品,不需要训 reward model,效果接近。
- RLVR(RL from Verifiable Reward)。用可验证的奖励(如代码能否跑通、数学是否做对)做 RL。DeepSeek-R1、OpenAI o 系列都用这个。
- Distillation(蒸馏)。用一个大的 teacher model 教一个小的 student model,让小模型也变聪明。
- 该用。你的领域术语、输出格式、风格,prompt 写不出来;你需要降低延迟/成本(用小一点的模型微调)。
- 不该用。你只是想让模型「知道」一些事实。用 RAG。微调教不会新事实。
- LoRA / QLoRA。低显存微调技术,一张消费级 GPU 就能微调几十 B 的模型。
知道「微调 ≠ 教模型新知识,微调 = 让模型用你的方式做事」。
一个最小可跑的微调 pipeline:选 base model(HuggingFace)→ 准备数据(ShareGPT 格式)→ 用 LLaMA-Factory / Unsloth / Axolotl → 训练 → 评估 → 部署。
评估:lm-eval-harness、OpenCompass、HELM。课程:HuggingFace 的 Smol Course、Karpathy 的 Let's reproduce GPT-2。
评估、能力边界与失败模式
知道模型会怎么翻车,比知道它有多强重要。这是 *AI 边界*真正的清单。
- 通用知识。MMLU、MMLU-Pro、GPQA Diamond、SimpleQA。
- 数学。AIME 2025/2026、HMMT、Math500。
- 代码。HumanEval(已饱和)、LiveCodeBench、SWE-bench Verified、SWE-bench Pro、Terminal-Bench。
- Agent。GDPval-AA、DeepResearch Bench、τ-bench。
- 多模态。MMMU、MMMU-Pro、MathVista。
看 benchmark 永远先看任务描述,不要只看分数。HumanEval 90+ 已经不能区分前沿模型。
- Hallucination(幻觉)。模型自信地说不存在的事实。缓解:RAG、要求引用、限定「如果不知道就说不」。
- Jailbreak / Prompt Injection。用户/输入文档里藏指令让模型违背 system prompt。缓解:把用户输入当数据不是指令。
- Reasoning Failure。简单任务过度推理、复杂任务推理不足。
- Tool Use Failure。长上下文里忘了之前调过什么工具、重复调、调错参数。
- Verbosity / Sycophancy。废话太多、附和用户。
- 很强。写中等规模代码、读懂代码、文档/邮件写作、翻译、总结、模式识别、数学(AIME 95+)、单步工具调用。
- 可用但不完美。跨文件大型 refactor、调试分布式系统、长文档的精确 recall、多步 Agent(>50 步时常常跑偏)、生成可执行 UI 截图。
- 做不到。实时信息(除非接 RAG/搜索)、精确计数(「图里有几个苹果」)、自我验证、长程规划(>数小时独立任务常常卡住)、私有事实(除非 RAG/微调)。
算力、推理优化与本地部署
看到「这个模型要 8 张 H100」能算出来「那每月要 $20K+ 算力」,这就是这一节的目的。
- 显存(VRAM)。模型权重 + KV cache + activation。决定能不能装下。
- 显存带宽。决定生成 token 的速度(ITL, inter-token latency)。
- 计算(FLOPs)。决定首 token 延迟(TTFT, time to first token)。
GPU 主流:NVIDIA H100 / H200 / B200(数据中心)、A100(老款但仍主流)、RTX 4090 / 5090(消费级旗舰)。
- FP8。H100 原生支持,速度几乎不掉,显存省 50%。
- INT4 / GPTQ / AWQ。显存省 75%,精度损失一般 <2%。
- INT2 / 三元 / 二元。实验性,极省显存但精度损失大。
- KV cache 优化。FP8 KV cache(vLLM)、TurboQuant 4-bit KV cache(SGLang, 3.88x 压缩)、PagedAttention(vLLM)、RadixAttention(SGLang)。
- vLLM。默认起点,PagedAttention、HuggingFace 兼容最广、硬件支持最全。
- SGLang。RadixAttention 对 prefix-reuse 场景极强(multi-turn chatbot、RAG)、结构化输出快。2026 年由 RadixArk 团队独立,融了 4 亿美元。
- TensorRT-LLM。NVIDIA 自家、极致 throughput、编译复杂。
- TGI / llama.cpp / Ollama / LMStudio。轻量、本地、跑小模型。
- 本地部署的场景。数据隐私 / 法规要求;用量很大、单次成本高;想要最新开源模型。否则用 API:$0.14-$2 / 百万 token,1 个工程师 1 小时就能上线。
多模态与 AI 生态地图
2026 年的模型生态,知道主流玩家、知道 License 差异、能按场景选模型。
- 图像理解。GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Qwen3-VL、Llama 4 全支持。
- 图像生成。FLUX.2、DALL·E 3、Imagen 3、Midjourney、Stable Diffusion(开源)、GPT-Image-1、Qwen-Image。
- 视频理解 / 生成。Sora 2、Veo 3、Kling 2.5、Runway Gen-4、Wan 2.1(开源)。
- 音频(ASR/TTS)。Whisper、ElevenLabs、Cartesia、Seed-ASR、MeloTTS。
- 音乐。Suno 4.5、Udio 1.5。
- 3D / 世界模型。Genie 3、Marble、Wan 2.1 3D、Tripo 3.0。
- 闭源第一梯队。Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro。
- 开源第一梯队。DeepSeek V4 Pro (MIT)、Kimi K2.6 (Modified MIT)、GLM-5.1 (MIT)、Qwen3.6-27B (Apache 2.0)、Llama 4 Scout (Meta license, 700M MAU 限制)、Mistral Small 4 (Apache 2.0)、Gemma 4 (Apache 2.0)。
- 代码专项。DeepSeek V4 Pro(GDPval-AA 第一)、Kimi K2.6(HumanEval 99%)、Qwen3-Coder-Next(80B/3B active 跑消费卡)、GLM-5.1(SWE-bench Pro 第一)。
- 极小 / 端侧。Gemma 4 E2B/E4B(手机/笔记本)、Qwen3 系列小尺寸、Llama 3.2 1B/3B。
- MIT。随便用、商用、改、再发布,只保留版权声明。最自由。
- Apache 2.0。随便用、商用、改,需要保留版权声明 + 专利授权。几乎一样自由。
- Meta Llama License。700M MAU 以下随便用,超过要单独谈。
- DeepSeek V4 / V3 自定义 License。商用可用,有一些 use-case 限制。
- 「开源」的争议:OSI 严格定义认为 只有 MIT / Apache 2.0 / BSD 等才算「真开源」,Meta / DeepSeek License 都是 open-weight 而不是 open-source。