系列大纲：用第一性原理理解大模型

这是一篇隐藏的写作备忘录，用来沉淀后续系列文章的主线、章节安排和写作约束。读者不需要先看到这篇文章，但后续每一篇文章都应该从这里取走同一条主干。

系列主线

整个系列围绕一条逻辑链展开：


Token
↓
Next Token Prediction
↓
Language Distribution Modeling
↓
World Knowledge Compression
↓
Emergent Reasoning
↓
Instruction Following
↓
Tool Use / RAG
↓
Agent
↓
AI Native Product
↓
Autonomous Task Delivery

更口语化地说：

大模型的底层是预测，下层是压缩，中层是推理，上层是工具，产品层是任务，未来形态是 Agent。

一句话定义

大语言模型是一种通过预测 token 序列学习语言分布，并在规模化训练、对齐、上下文工程和工具调用的共同作用下，表现出知识表达、推理、规划和任务执行能力的概率智能系统。

主系列拆分


01 大模型的第一性原理：预测下一个 token
02 Token 与 Embedding：语言如何变成模型能处理的数字
03 Transformer 与 Attention：模型如何“看见”上下文
04 语言是世界的压缩：为什么预测文字会长出智能
05 预训练、微调与对齐：大模型如何从续写机器变成助手
06 Scaling Law 与涌现：为什么规模会改变能力边界
07 推理与生成：temperature、上下文窗口和逐 token 输出
08 幻觉的本质：大模型为什么会一本正经地胡说
09 RAG：给大模型外挂可追溯的知识
10 Tool Use：让大模型从“会说”走向“会做”
11 Agent：从聊天机器人到任务执行系统
12 大模型工程：KV Cache、推理成本与部署系统
13 AI Native 产品设计：概率系统如何提供确定体验
14 商业化与未来：从 SaaS 到结果即服务

进阶专题池

主系列写完后，可以继续展开这些专题：


MoE 模型
长上下文工程
KV Cache 深挖
Prompt Injection
Agent 评测
多 Agent 调度
AI 成本优化
Workflow Agent
端侧模型
多模态模型
模型路由
从 Prompt 到 Workflow

写作口径

这个系列要坚持几个基本判断：

不把大模型神秘化。先解释它是概率模型，再解释为什么概率系统会表现出复杂能力。
不把大模型矮化成“高级输入法”。预测下一个 token 是表面任务，真正重要的是预测所迫使模型学习的世界结构。
不把“理解”直接等同于人类体验。这里的理解更像是对符号关系、任务模式和世界规律的高维建模能力。
不把产品能力归因于裸模型。现代大模型产品来自模型、数据、计算、对齐、RAG、工具和 Agent 框架组成的系统。
每篇文章都要让非技术读者读懂，但保留足够准确的技术骨架。

第一篇核心句

第一篇要把这个句子讲透：

大模型不是在“查答案”，而是在给定上下文后，计算下一个 token 的概率分布；但当这个预测系统被迫压缩足够多的人类语言，它也被迫学会语言背后的世界结构。