06：Scaling Law 与涌现：为什么规模会改变能力边界

参数、数据和计算三条尺度轴共同推动模型越过能力边界的封面图

🧭

这是「用第一性原理理解大模型」系列的第 6 篇。第 5 篇：预训练、微调与对齐解释了一个续写系统如何被训练成助手。现在，让我们继续深入：如果底层目标一直都是预测下一个 token，为什么模型变大、数据变多、计算变强之后，模型的能力边界，会发生这么明显的变化？这篇文章将为你揭晓 Scaling Law 与涌现。

通过前几篇文章的介绍，我们已经用第一性原理，拆解出大语言模型的主脉络：


核心任务是准确预测下一个 token
但不是简单地背诵答案，
而是通过压缩语言背后的世界结构来实现。

第 5 篇又额外补上了一环：


预训练让模型学会语言和世界的结构，给予模型基础能力；
监督微调让模型学会按用户请求来做不同回应，接住用户指令；
偏好对齐让模型更倾向于有帮助、诚实、安全的回答，更像可靠助手；
系统工程把模型接到上下文、工具、策略、反馈和产品体验里；
于是，一个续写系统被塑造成了助手。

但这里还有一个关键问题没有展开：


为什么规模会这么重要？

如果一个模型小一点，它是不是只是「知识少一点」？

如果一个模型大一点，它是不是只是「背得多一点」？

如果只是这样，那么规模带来的差异，应该像书架变大：能多放几本书，多记几个事实，多支持几个主题。

但真实情况更微妙。

模型规模变大后，往往改变的不是单个知识点，而是任务边界：


以前只能接近回答，现在可以稳定回答；
以前只能模仿格式，现在可以理解约束；
以前只能写片段代码，现在可以完成小项目；
以前只能复述步骤，现在可以拆解问题；
以前只能处理短上下文，现在可以跨很多段落保持目标。

这就是第 6 篇要解释的事：

规模不是给模型塞进一组新功能，而是通过持续降低预测误差，把越来越多任务推过「可用阈值」。

一、为什么大一点的模型不仅仅是回答得多一点

更大模型跨过更多任务可用阈值，而不是只回答更多内容的示意图

我们先看一个很普通的现象。

小模型和大模型面对同一个问题时，差异有时不是：


小模型答少一点；
大模型答多一点。

而是：


小模型根本没有抓住任务；
大模型忽然像是「懂了」。

比如用户说：


请把下面这段投诉改成客服工单标题，要求不超过 20 个字，保留用户核心诉求，不要使用情绪化词汇。

这不是一个很难的科研问题，但它同时包含几层约束：


理解原文内容；
判断核心诉求；
改写成标题；
控制字数；
去掉情绪化表达；
保留客服可处理的信息。

一个能力不足的模型可能会漏掉其中某几层。

它可能总结得太长，或者仍然带着情绪词，或者变成一段解释，或者只抓住表面词语。

能力更强的模型不一定多知道了什么事实，但它可以更稳定地满足各种约束。

这就是「能力边界」的意思。

很多任务不仅依赖单个技能点，而是需要一组技能包同时成立：


语义理解
+ 约束遵守
+ 格式转换
+ 目标保持
+ 常识判断
+ 长程一致性

只要其中一个环节掉下去，用户看到的就是「它不会」。

当模型规模、数据和训练计算继续上升时，模型不仅记住了更多事实，而且还在更多位置形成了更稳的内部表示。

于是，一些过去「差一点」的任务，会突然变成「能用了」。

这就是 Scaling Law 和涌现之间最重要的连接点。

二、Scaling Law 到底在说什么

随着模型尺度增加，loss 平滑下降，并让多个任务阈值陆续被跨过的曲线示意图

Scaling Law 字面意思是「规模定律」。

放在大模型里，它描述的是一个经验现象：


当参数规模、训练数据和计算量按合理方式增加时，
模型在留出集上的预测误差通常会沿着相对平滑、可预测的曲线下降。

这里最重要的指标不是把训练集背得多熟，而是留出集上的预测误差，也就是常说的 test loss。

loss 可以粗略理解成：


模型对下一个 token 的预测，和真实下一个 token 之间相差多少。

test loss 越低，说明模型在未直接训练的样本上也能给真实 token 更高概率，也说明它对语言分布的建模更有泛化性。

幂律下降还有一个含义：规模继续增加通常仍有收益，但收益递减。同样的 loss 改善，后面往往需要更多数据、参数和计算。

但要注意：loss 不是用户直接感受到的「聪明程度」。

用户不会说：


这个模型 loss 降了 0.05，体验很好。

用户感受到的是：


它有没有抓住我的意图；
它有没有漏约束；
它有没有编事实；
它能不能写出可运行代码；
它能不能在长对话里保持上下文；
它能不能在边界场景下仍然稳定。

那 loss 和这些能力有什么关系？

第一性原理是：


预测下一个 token 的误差下降，
意味着模型对上下文、语义、事实、格式、推理路径和任务模式的表示更好。

模型要更准确地预测文本，降低 loss，它就必须更好地压缩文本背后的结构。

它不能只记住词语共现，还要逐渐学会：


哪个词在当前语境下更合理；
哪个变量会影响下一步；
哪个格式应该继续；
哪个代码片段会导致语法错误；
哪个结论和前提矛盾；
哪个回答更符合用户角色和任务目标。

因此，Scaling Law 的意义不是「规模越大，越会背书」。

而是：

规模越大，要求的预测误差越低，会迫使模型学习越来越深、越来越多的可复用结构。

三、规模不是只把参数堆大

参数、训练数据和计算三角形共同决定模型是否能沿 scaling law 有效下降的示意图

谈规模时，很多人第一反应是：


参数越多，模型越强。

这句话只说对了一部分。

大模型的「规模」至少包含三个关键维度：


参数规模：模型能承载多少可学习结构；
数据规模：训练过程能给模型多少信号；
计算规模：模型有多少机会把这些信号学进去。

这三个维度不能单独看。

参数太少，即使有很多数据，模型也可能装不下复杂结构。

数据太少，即使参数很多，模型也可能只是记住局部模式，无法泛化。

计算不够，即使参数和数据都在，训练也可能还没有把结构充分压进参数里。

所以，更合理的理解是：


参数提供容量；
数据提供信号；
计算支付学习成本。

这三者要一起增长，模型才可能沿着 Scaling Law 往下走。

后来很多训练策略强调的也正是这一点：同样的算力预算下，不是盲目把模型做得越大越好，而是要平衡模型参数量和训练数据量。

这对「第一性原理」很重要。

因为模型能力不是一个单独变量决定的。

它更像一个三角形：


模型有足够容量，
训练数据有足够覆盖，
计算过程有足够时间，
三者共同把预测误差压低。

如果其中一角严重不足，规模就不会转化成能力。

这也是为什么同样叫「大模型」，体验差异可能很大。

有的模型参数很大，但数据质量、训练配方、后训练、上下文处理和工具系统没有跟上，用户体验仍然会不稳定。

有的模型参数不算最大，但数据、训练、对齐和产品系统更扎实，在特定任务上反而更可靠。

四、涌现不是魔法，而是阈值被跨过

底层能力平滑上升，但只有跨过任务阈值后才表现为可见涌现能力的示意图

接下来讲「涌现」。

很多人听到涌现能力，会以为是当模型超过某个规模点，会突然长出新模块，掌握新能力。

比如：


某个参数量之前不会推理；
超过某个参数量之后突然会推理。

这种说法很有戏剧性，但容易误导，模型能力并非从 0 到 1 突然「涌现」，而是更平滑地「生长」出来。

涌现更像是：


随着模型底层能力连续变好；
面对外部任务的离散评测；
当模型能力跨过任务阈值时，
我们才第一次看到它「会了」。

举个例子。

假设一个模型做三位数加法。

它需要同时处理：


数字位置；
进位规则；
步骤顺序；
输出格式；
中间错误不能扩散。

当模型能力不够时，它可能 40% 的时候答对。

从用户角度看，这还是「不会」，因为不可靠。

当规模继续提高，答对的概率可能变成 60%、80%、95%。

如果某个评测只记录「是否达到可用标准」，那么能力曲线看起来就像突然跳了一下，从 0 变 1，变成「可用」。

但内部未必是突然产生了一个新的模块。

更可能是原本连续提升的表示能力，终于超过了任务可见阈值。

代码生成也类似。

一个模型只差一点时，可能写出看起来合理但不能运行的代码。

继续降低预测误差后，它开始更稳定地满足语法、API、变量名、边界条件和任务目标。

用户看到的不是：


它的 loss 小幅下降。

用户看到的是：


这次代码能跑了。

这就是涌现给人的感觉。

它像突然出现，是因为任务结果往往是离散的：


能不能运行；
有没有答对；
有没有遵守格式；
有没有完成任务；
用户能不能直接用。

但背后的模型质量，可能一直在相对平滑地变化。

所以我们可以这样理解：

涌现不是魔法，而是连续的模型改进跨过了离散任务的可用阈值。

当然，关于「涌现」本身仍有争论。有些研究认为确实存在接近相变的能力跃迁；也有研究指出，很多看似突然出现的能力，可能来自评测指标的离散化和度量方式选择。本文采用的是更保守的框架：底层能力往往连续改善，而离散任务、阈值和评测指标会制造「突然会了」的观感。

五、为什么规模会改变能力边界

模型能力地图随着规模扩大，从词语关联扩展到代码、推理和复杂任务区域的示意图

现在我们可以回答本文的核心问题：


为什么规模会改变能力边界？

因为很多高级任务，本质上要求模型同时压缩和调用更多结构。

比如写代码，不只是知道某个函数名。

它要同时表示：


用户意图；
程序结构；
语言语法；
库的用法；
变量之间的关系；
边界条件；
错误模式；
输出约束。

比如多步推理，也不是只知道一个事实。

它要同时表示：


当前目标；
已知条件；
中间状态；
下一步可选路径；
哪些路径会和前提冲突；
最终答案应该如何表达。

小模型也可能学到其中一些局部模式。

但当任务要求把许多结构同时组合起来时，它就容易犯错。

规模扩大后，模型有更多容量去承载这些可复用结构，也有更多训练信号去校正它们之间的关系。

于是能力边界会往外移动：


从词语关联，到句法关系；
从常见事实，到抽象概念；
从单步模仿，到多步转换；
从短上下文一致，到长上下文目标保持；
从局部代码片段，到可运行程序结构；
从简单问答，到复杂任务拆解。

这不是说规模能自动解决所有问题。

更大的模型仍然可能错。

但规模提高了一个系统能稳定处理的结构复杂度上限。

你可以把能力边界想象成一张地图。

地图内的任务，模型可以比较稳定地完成；地图边缘的任务，模型可能有时成功、有时失败；地图外的任务，模型会开始胡编、漏约束、绕圈子或看起来很自信地错。

Scaling Law 推动这张地图扩大。

涌现则是用户第一次看到某块新区域变得可用。

六、规模的边界：为什么更大也不等于可靠

更大模型虽然跨过部分能力阈值，但仍受事实、上下文、成本和验证边界限制的示意图

讲到这里，很容易走向另一个误解：


既然规模有用，那只要模型足够大，问题就都会消失。

不对。

规模能扩大能力边界，但它不会改变底层目标：


给定上下文，预测下一个 token。

这意味着几个边界仍然存在。

1. 更大不等于知道真实世界的最新状态

模型从训练数据里学到世界结构，但训练完成后，它不会自动知道今天发生了什么。

如果问题依赖最新信息、私有数据、实时状态或公司内部流程，规模不能替代检索、数据库和工具。

2. 更大不等于不会幻觉

更大的模型通常更会组织语言，也更会生成看起来合理的解释。

这既是优点，也是风险。

当它缺少证据时，仍然可能生成流畅但错误的内容。

甚至因为表达更自然，错误更难被用户察觉。

3. 更大不等于稳定遵守业务约束

业务系统经常需要确定性：


金额不能错；
权限不能越界；
格式必须可解析；
合规边界不能漂移；
工具调用必须可追踪。

这些不能只靠模型变大。

它们需要系统提示词、输出约束、检索、工具、校验器、权限系统和评估闭环共同保证。

4. 更大不等于产品体验更好

模型越大，通常也意味着：


成本更高；
延迟更长；
部署更复杂；
调试更困难；
边界行为更难预测。

真实产品不是选择「最强模型」，而是选择在目标任务上刚好稳定跨过阈值的系统组合。

这也是为什么小模型、领域模型、RAG、工具调用和工作流仍然重要。

规模是能力的底座，但可靠体验来自系统。

七、常见误解

关于 Scaling Law 和涌现的常见误解被过滤，并指向平滑改进跨过阈值的正确解释

误解一：涌现说明模型突然拥有了意识。

不对。涌现能力通常说明模型在某类任务上的表示能力跨过了可见阈值，不等于出现了人类意义上的主观体验或意识。

误解二：Scaling Law 的意思是只要堆参数就行。

不对。参数、数据和计算要平衡，数据质量、训练配方、后训练和系统工程也会显著影响最终能力。

误解三：小模型没有价值。

不对。很多任务不需要跨过很高的能力边界。分类、改写、抽取、路由、简单客服、结构化输出等场景，小模型可能更快、更便宜、更可控。

误解四：benchmark 上突然变好，就说明能力真的是瞬间出生的。

不一定。很多 benchmark 是离散评分，底层能力可能是连续上升，只是在某个点跨过了评分阈值。

误解五：更大的模型一定带来更好的产品。

不一定。产品质量取决于任务、成本、延迟、可靠性、上下文、工具、评估和交互设计。模型只是系统的一部分。

八、这对产品和工程意味着什么

产品工程中根据任务阈值选择模型，并叠加评估、检索、工具和工作流提升可靠性的示意图

理解 Scaling Law 和涌现后，做 AI 产品时会更少迷信，也更少轻视规模。

1. 先判断任务是否在模型能力边界内

如果任务本身已经超出模型边界，单纯写更长 prompt 通常只会让失败看起来更体面。

比如模型不能稳定做复杂表格推理，你给再多语气要求，它也可能继续漏行、漏列或算错。

这时应该考虑：


换更强底座模型；
把任务拆小；
引入工具计算；
用检索补上下文；
用校验器检查输出；
把高风险步骤交给确定性程序。

2. 选模型时看「是否稳定跨过阈值」

不要只看排行榜上的平均分。

产品更关心：


目标任务是否稳定；
边界场景是否稳定；
错误是否可检测；
失败后是否可恢复；
成本和延迟是否可接受。

一个小模型如果已经稳定跨过你的业务阈值，它可能比更大的通用模型更适合。

一个大模型如果只是平均分更高，但在关键边界场景不稳，产品风险仍然很高。

3. 评估要看 margin，而不是只看一次是否成功

很多任务从「偶尔成功」到「稳定可用」之间，差距很大。

所以评估不要只问：


这一次过了吗？

还要问：


换一种说法还过吗？
加一点噪声还过吗？
上下文变长还过吗？
用户约束冲突时还稳吗？
连续调用十次还一致吗？

这就是能力边界的 margin。

4. 规模解决基础能力，系统解决可靠交付

规模能把更多任务推入可用区，但最终产品要让用户放心，通常还需要系统工程。


RAG 解决知识新鲜度和可追溯；
工具调用解决计算、查询和执行；
工作流解决长任务稳定性；
权限系统解决越界风险；
评估集解决持续回归；
交互设计解决用户表达和确认。

不要把模型当成整个产品，也不要忽视模型能力边界。

好的 AI 产品，往往是在合适规模的模型上，叠加合适的上下文、工具、约束和反馈。

九、技术附录：MoE 改变的是「总规模」和「每次激活规模」的关系

讨论规模时，还会遇到一个重要架构：MoE，Mixture of Experts，混合专家模型。

传统 dense 模型通常是每次推理都激活大部分参数。MoE 的直觉不一样：模型内部有多个专家网络，每个 token 只路由到其中一部分专家。

这带来一个关键区别：


总参数量：模型整体存了多少能力和模式；
激活参数量：一次生成中真正参与计算的参数有多少。

MoE 的价值在于，它可以扩大总参数量，让模型拥有更大的容量；同时控制每个 token 的激活参数量，让推理成本不跟总参数线性增长。

但 MoE 不是免费午餐。它还会带来路由、负载均衡、专家利用率、训练稳定性和部署复杂度问题。产品层面要记住的是：MoE 说明「规模」不只是一句参数更大，还包括哪些参数在什么时候被激活，以及这种激活方式能否稳定、便宜地服务真实请求。

十、总结：规模如何改变能力边界

参数、数据和计算汇合成规模增长路径，并陆续点亮任务阈值的总结图

现在我们可以把本文压缩成几句话：


Scaling Law 说明，参数、数据和计算合理增长时，预测误差会相对平滑地下降；
预测误差下降，意味着模型对语言和世界结构的压缩更好；
许多任务有离散的可用阈值；
当连续改进跨过这些阈值时，用户会看到像是「突然出现」的能力；
这就是很多涌现现象的来源。

如果再压缩成一句话：

规模不是魔法，它通过参数、数据和计算降低预测误差；涌现也不是凭空生长，而是连续能力跨过了任务的可用阈值。

理解这一点后，我们既不会把大模型神秘化，也不会把它轻率地降格成「高级输入法」。

它仍然是在预测下一个 token。

但当这个预测系统被足够大的规模、足够好的数据和足够多的计算推到新的边界时，它就会开始稳定完成过去做不到的任务。

十一、你应该能回答的三个问题

读完这一篇，可以试着用自己的话回答：

为什么能力提升可以是连续的，但用户感受到的能力出现像是突然的？
为什么更大的模型不自动等于更可靠的产品？
MoE 为什么让我们区分「总参数量」和「激活参数量」？

下一篇，我们会继续看模型在真实生成时到底发生了什么：temperature、上下文窗口、采样，以及为什么大模型总是一个 token 一个 token 地输出。