Skip to Content

06:Scaling Law 与涌现:为什么规模会改变能力边界

参数、数据和计算三条尺度轴共同推动模型越过能力边界的封面图

🧭

这是「用第一性原理理解大模型」系列的第 6 篇。第 5 篇:预训练、微调与对齐 解释了一个续写系统如何被训练成助手。现在,让我们继续深入:如果底层目标一直都是预测下一个 token,为什么模型变大、数据变多、计算变强之后,模型的能力边界,会发生这么明显的变化?这篇文章将为你揭晓 Scaling Law 与涌现。

通过前几篇文章的介绍,我们已经用第一性原理,拆解出大语言模型的主脉络:

核心任务是准确预测下一个 token 但不是简单地背诵答案, 而是通过压缩语言背后的世界结构来实现。

第 5 篇又额外补上了一环:

预训练让模型学会语言和世界的结构,给予模型基础能力; 监督微调让模型学会按用户请求来做不同回应,接住用户指令; 偏好对齐让模型更倾向于有帮助、诚实、安全的回答,更像可靠助手; 系统工程把模型接到上下文、工具、策略、反馈和产品体验里; 于是,一个续写系统被塑造成了助手。

但这里还有一个关键问题没有展开:

为什么规模会这么重要?

如果一个模型小一点,它是不是只是「知识少一点」?

如果一个模型大一点,它是不是只是「背得多一点」?

如果只是这样,那么规模带来的差异,应该像书架变大:能多放几本书,多记几个事实,多支持几个主题。

但真实情况更微妙。

模型规模变大后,往往改变的不是单个知识点,而是任务边界:

以前只能接近回答,现在可以稳定回答; 以前只能模仿格式,现在可以理解约束; 以前只能写片段代码,现在可以完成小项目; 以前只能复述步骤,现在可以拆解问题; 以前只能处理短上下文,现在可以跨很多段落保持目标。

这就是第 6 篇要解释的事:

规模不是给模型塞进一组新功能,而是通过持续降低预测误差,把越来越多任务推过「可用阈值」。

一、为什么大一点的模型不仅仅是回答得多一点

我们先看一个很普通的现象。

小模型和大模型面对同一个问题时,差异有时不是:

小模型答少一点; 大模型答多一点。

而是:

小模型根本没有抓住任务; 大模型忽然像是「懂了」。

比如用户说:

请把下面这段投诉改成客服工单标题,要求不超过 20 个字,保留用户核心诉求,不要使用情绪化词汇。

这不是一个很难的科研问题,但它同时包含几层约束:

理解原文内容; 判断核心诉求; 改写成标题; 控制字数; 去掉情绪化表达; 保留客服可处理的信息。

一个能力不足的模型可能会漏掉其中某几层。

它可能总结得太长,或者仍然带着情绪词,或者变成一段解释,或者只抓住表面词语。

能力更强的模型不一定多知道了什么事实,但它可以更稳定地满足各种约束。

这就是「能力边界」的意思。

很多任务不仅依赖单个技能点,而是需要一组技能包同时成立:

语义理解 + 约束遵守 + 格式转换 + 目标保持 + 常识判断 + 长程一致性

只要其中一个环节掉下去,用户看到的就是「它不会」。

当模型规模、数据和训练计算继续上升时,模型不仅记住了更多事实,而且还在更多位置形成了更稳的内部表示。

于是,一些过去「差一点」的任务,会突然变成「能用了」。

这就是 Scaling Law 和涌现之间最重要的连接点。

二、Scaling Law 到底在说什么

Scaling Law 字面意思是「规模定律」。

放在大模型里,它描述的是一个经验现象:

当参数规模、训练数据和计算量按合理方式增加时, 模型的训练误差和预测误差通常会沿着相对平滑、可预测的曲线下降。

这里最重要的指标是「训练误差」 loss。

loss 可以粗略理解成:

模型对下一个 token 的预测,和真实下一个 token 之间相差多少。

loss 越低,说明模型给真实 token 的概率越高,也说明它对语言分布的建模更贴近训练数据。

但要注意:loss 不是用户直接感受到的「聪明程度」。

用户不会说:

这个模型 loss 降了 0.05,体验很好。

用户感受到的是:

它有没有抓住我的意图; 它有没有漏约束; 它有没有编事实; 它能不能写出可运行代码; 它能不能在长对话里保持上下文; 它能不能在边界场景下仍然稳定。

那 loss 和这些能力有什么关系?

第一性原理是:

预测下一个 token 的误差下降, 意味着模型对上下文、语义、事实、格式、推理路径和任务模式的表示更好。

模型要更准确地预测文本,降低 loss,它就必须更好地压缩文本背后的结构。

它不能只记住词语共现,还要逐渐学会:

哪个词在当前语境下更合理; 哪个变量会影响下一步; 哪个格式应该继续; 哪个代码片段会导致语法错误; 哪个结论和前提矛盾; 哪个回答更符合用户角色和任务目标。

因此,Scaling Law 的意义不是「规模越大,越会背书」。

而是:

规模越大,要求的预测误差越低,会迫使模型学习越来越深、越来越多的可复用结构。

随着模型尺度增加,loss 平滑下降,并让多个任务阈值陆续被跨过的曲线示意图

三、规模不是只把参数堆大

谈规模时,很多人第一反应是:

参数越多,模型越强。

这句话只说对了一部分。

大模型的「规模」至少包含三个关键维度:

参数规模:模型能承载多少可学习结构; 数据规模:训练过程能给模型多少信号; 计算规模:模型有多少机会把这些信号学进去。

这三个维度不能单独看。

参数太少,即使有很多数据,模型也可能装不下复杂结构。

数据太少,即使参数很多,模型也可能只是记住局部模式,无法泛化。

计算不够,即使参数和数据都在,训练也可能还没有把结构充分压进参数里。

所以,更合理的理解是:

参数提供容量; 数据提供信号; 计算支付学习成本。

这三者要一起增长,模型才可能沿着 Scaling Law 往下走。

后来很多训练策略强调的也正是这一点:同样的算力预算下,不是盲目把模型做得越大越好,而是要平衡模型参数量和训练数据量。

这对「第一性原理」很重要。

因为模型能力不是一个单独变量决定的。

它更像一个三角形:

模型有足够容量, 训练数据有足够覆盖, 计算过程有足够时间, 三者共同把预测误差压低。

如果其中一角严重不足,规模就不会转化成能力。

这也是为什么同样叫「大模型」,体验差异可能很大。

有的模型参数很大,但数据质量、训练配方、后训练、上下文处理和工具系统没有跟上,用户体验仍然会不稳定。

有的模型参数不算最大,但数据、训练、对齐和产品系统更扎实,在特定任务上反而更可靠。

参数、训练数据和计算三角形共同决定模型是否能沿 scaling law 有效下降的示意图

四、涌现不是魔法,而是阈值被跨过

接下来讲「涌现」。

很多人听到涌现能力,会以为是当模型超过某个规模点,会突然长出新模块,掌握新能力。

比如:

某个参数量之前不会推理; 超过某个参数量之后突然会推理。

这种说法很有戏剧性,但容易误导,模型能力并非从 0 到 1 突然「涌现」,而是更平滑地「生长」出来。

涌现更像是:

随着模型底层能力连续变好; 面对外部任务的离散评测; 当模型能力跨过任务阈值时, 我们才第一次看到它「会了」。

举个例子。

假设一个模型做三位数加法。

它需要同时处理:

数字位置; 进位规则; 步骤顺序; 输出格式; 中间错误不能扩散。

当模型能力不够时,它可能 40% 的时候答对。

从用户角度看,这还是「不会」,因为不可靠。

当规模继续提高,答对的概率可能变成 60%、80%、95%。

如果某个评测只记录「是否达到可用标准」,那么能力曲线看起来就像突然跳了一下,从 0 变 1,变成「可用」。

但内部未必是突然产生了一个新的模块。

更可能是原本连续提升的表示能力,终于超过了任务可见阈值。

代码生成也类似。

一个模型只差一点时,可能写出看起来合理但不能运行的代码。

继续降低预测误差后,它开始更稳定地满足语法、API、变量名、边界条件和任务目标。

用户看到的不是:

它的 loss 小幅下降。

用户看到的是:

这次代码能跑了。

这就是涌现给人的感觉。

它像突然出现,是因为任务结果往往是离散的:

能不能运行; 有没有答对; 有没有遵守格式; 有没有完成任务; 用户能不能直接用。

但背后的模型质量,可能一直在相对平滑地变化。

所以我们可以这样理解:

涌现不是魔法,而是连续的模型改进跨过了离散任务的可用阈值。

底层能力平滑上升,但只有跨过任务阈值后才表现为可见涌现能力的示意图

五、为什么规模会改变能力边界

现在我们可以回答本文的核心问题:

为什么规模会改变能力边界?

因为很多高级任务,本质上要求模型同时压缩和调用更多结构。

比如写代码,不只是知道某个函数名。

它要同时表示:

用户意图; 程序结构; 语言语法; 库的用法; 变量之间的关系; 边界条件; 错误模式; 输出约束。

比如多步推理,也不是只知道一个事实。

它要同时表示:

当前目标; 已知条件; 中间状态; 下一步可选路径; 哪些路径会和前提冲突; 最终答案应该如何表达。

小模型也可能学到其中一些局部模式。

但当任务要求把许多结构同时组合起来时,它就容易犯错。

规模扩大后,模型有更多容量去承载这些可复用结构,也有更多训练信号去校正它们之间的关系。

于是能力边界会往外移动:

从词语关联,到句法关系; 从常见事实,到抽象概念; 从单步模仿,到多步转换; 从短上下文一致,到长上下文目标保持; 从局部代码片段,到可运行程序结构; 从简单问答,到复杂任务拆解。

这不是说规模能自动解决所有问题。

更大的模型仍然可能错。

但规模提高了一个系统能稳定处理的结构复杂度上限。

你可以把能力边界想象成一张地图。

地图内的任务,模型可以比较稳定地完成;地图边缘的任务,模型可能有时成功、有时失败;地图外的任务,模型会开始胡编、漏约束、绕圈子或看起来很自信地错。

Scaling Law 推动这张地图扩大。

涌现则是用户第一次看到某块新区域变得可用。

模型能力地图随着规模扩大,从词语关联扩展到代码、推理和复杂任务区域的示意图

六、规模的边界:为什么更大也不等于可靠

讲到这里,很容易走向另一个误解:

既然规模有用,那只要模型足够大,问题就都会消失。

不对。

规模能扩大能力边界,但它不会改变底层目标:

给定上下文,预测下一个 token。

这意味着几个边界仍然存在。

1. 更大不等于知道真实世界的最新状态

模型从训练数据里学到世界结构,但训练完成后,它不会自动知道今天发生了什么。

如果问题依赖最新信息、私有数据、实时状态或公司内部流程,规模不能替代检索、数据库和工具。

2. 更大不等于不会幻觉

更大的模型通常更会组织语言,也更会生成看起来合理的解释。

这既是优点,也是风险。

当它缺少证据时,仍然可能生成流畅但错误的内容。

甚至因为表达更自然,错误更难被用户察觉。

3. 更大不等于稳定遵守业务约束

业务系统经常需要确定性:

金额不能错; 权限不能越界; 格式必须可解析; 合规边界不能漂移; 工具调用必须可追踪。

这些不能只靠模型变大。

它们需要系统提示词、输出约束、检索、工具、校验器、权限系统和评估闭环共同保证。

4. 更大不等于产品体验更好

模型越大,通常也意味着:

成本更高; 延迟更长; 部署更复杂; 调试更困难; 边界行为更难预测。

真实产品不是选择「最强模型」,而是选择在目标任务上刚好稳定跨过阈值的系统组合。

这也是为什么小模型、领域模型、RAG、工具调用和工作流仍然重要。

规模是能力的底座,但可靠体验来自系统。

七、常见误解

误解一:涌现说明模型突然拥有了意识。

不对。涌现能力通常说明模型在某类任务上的表示能力跨过了可见阈值,不等于出现了人类意义上的主观体验或意识。

误解二:Scaling Law 的意思是只要堆参数就行。

不对。参数、数据和计算要平衡,数据质量、训练配方、后训练和系统工程也会显著影响最终能力。

误解三:小模型没有价值。

不对。很多任务不需要跨过很高的能力边界。分类、改写、抽取、路由、简单客服、结构化输出等场景,小模型可能更快、更便宜、更可控。

误解四:benchmark 上突然变好,就说明能力真的是瞬间出生的。

不一定。很多 benchmark 是离散评分,底层能力可能是连续上升,只是在某个点跨过了评分阈值。

误解五:更大的模型一定带来更好的产品。

不一定。产品质量取决于任务、成本、延迟、可靠性、上下文、工具、评估和交互设计。模型只是系统的一部分。

八、这对产品和工程意味着什么

理解 Scaling Law 和涌现后,做 AI 产品时会更少迷信,也更少轻视规模。

1. 先判断任务是否在模型能力边界内

如果任务本身已经超出模型边界,单纯写更长 prompt 通常只会让失败看起来更体面。

比如模型不能稳定做复杂表格推理,你给再多语气要求,它也可能继续漏行、漏列或算错。

这时应该考虑:

换更强底座模型; 把任务拆小; 引入工具计算; 用检索补上下文; 用校验器检查输出; 把高风险步骤交给确定性程序。

2. 选模型时看「是否稳定跨过阈值」

不要只看排行榜上的平均分。

产品更关心:

目标任务是否稳定; 边界场景是否稳定; 错误是否可检测; 失败后是否可恢复; 成本和延迟是否可接受。

一个小模型如果已经稳定跨过你的业务阈值,它可能比更大的通用模型更适合。

一个大模型如果只是平均分更高,但在关键边界场景不稳,产品风险仍然很高。

3. 评估要看 margin,而不是只看一次是否成功

很多任务从「偶尔成功」到「稳定可用」之间,差距很大。

所以评估不要只问:

这一次过了吗?

还要问:

换一种说法还过吗? 加一点噪声还过吗? 上下文变长还过吗? 用户约束冲突时还稳吗? 连续调用十次还一致吗?

这就是能力边界的 margin。

4. 规模解决基础能力,系统解决可靠交付

规模能把更多任务推入可用区,但最终产品要让用户放心,通常还需要系统工程。

RAG 解决知识新鲜度和可追溯; 工具调用解决计算、查询和执行; 工作流解决长任务稳定性; 权限系统解决越界风险; 评估集解决持续回归; 交互设计解决用户表达和确认。

不要把模型当成整个产品,也不要忽视模型能力边界。

好的 AI 产品,往往是在合适规模的模型上,叠加合适的上下文、工具、约束和反馈。

九、总结:规模如何改变能力边界

现在我们可以把本文压缩成几句话:

Scaling Law 说明,参数、数据和计算合理增长时,预测误差会相对平滑地下降; 预测误差下降,意味着模型对语言和世界结构的压缩更好; 许多任务有离散的可用阈值; 当连续改进跨过这些阈值时,用户会看到像是「突然出现」的能力; 这就是很多涌现现象的来源。

如果再压缩成一句话:

规模不是魔法,它通过参数、数据和计算降低预测误差;涌现也不是凭空生长,而是连续能力跨过了任务的可用阈值。

理解这一点后,我们既不会把大模型神秘化,也不会把它轻率地降格成「高级输入法」。

它仍然是在预测下一个 token。

但当这个预测系统被足够大的规模、足够好的数据和足够多的计算推到新的边界时,它就会开始稳定完成过去做不到的任务。

下一篇,我们会继续看模型在真实生成时到底发生了什么:temperature、上下文窗口、采样,以及为什么大模型总是一个 token 一个 token 地输出。

最后更新于: