Skip to Content
AI 时代✏️ LLM 定价的数学原理 05:从单卡到集群

✏️ LLM 定价的数学原理 05:从单卡到集群——并行与互联

📖

到目前为止,咱们一直在分析「一台 GPU 内部」发生的事——搬什么、算什么、谁等谁。但现实里前沿模型装不进一张 GPU:700B 模型在 FP8 下占 700GB,而一张 H100 只有 80GB——至少 9 张 GPU 才能装下一个完整模型。一旦涉及多卡,就有了全新的问题:这些 GPU 之间怎么协作?谁负责哪部分?它们之间怎么传消息?这一篇咱们就打开这个新维度。

🧭

前情提要:上一篇 拆开 KV cache 这个「反派」 咱们正面拆了 KV cache 的物理构成,并把所有架构创新分成了「算得快 / 经济学优化 / 硬件常数」三类。这一篇要看的「scale-up domain 加大」,本质上就是第三类——硬件常数(让物理墙整体后退)。但它解决的具体问题,跟你直觉里想的可能不一样。

一、为什么需要把模型切开?

先把动机搞清楚。一个模型可能因为三种原因需要切:

原因 1:装不下

700B 模型 ÷ 一张 H100 的 80GB = 必须切。这是物理强制。

原因 2:想跑得快

哪怕装得下,多卡并行也能加速。比如让 8 张 GPU 同时算,每张算 1/8 的工作。

原因 3:想跑得便宜(经济学)

回想第二篇的甜蜜点:B = 300 × 稀疏度倒数。要把 Batch 打到这个量级,需要足够的内存装 KV cache。单卡 80GB 装不下 5000 个用户的 KV——所以需要更多卡提供更多总内存。


二、切模型的三种维度

模型有很多「轴」可以切。打个比方,模型像一栋大楼:

  • 横切:按层切。第 1-20 层在 GPU A、第 21-40 层在 GPU B → pipeline parallelism(流水线并行)
  • 竖切:每层内部切。同一层的不同 head / 不同 expert 在不同 GPU → tensor parallelism / expert parallelism(张量并行 / 专家并行)
  • 复制:多份完整模型,各自处理不同 batch → data parallelism(数据并行)

🔑 目前生产级 LLM 推理主流只用两种expert parallelismpipeline parallelism。Tensor parallelism 通信开销大、主要用于训练;data parallelism 在大模型推理里不再适用(每份模型都装不下)。咱们逐个看这两种。


三、Expert Parallelism——MoE 的标配

回想第四篇:MoE 模型有很多专家(比如 DeepSeek V3 有 256 个),每个 token 只激活其中几个。

🔑 关键洞察不同专家可以放在不同 GPU 上

GPU 0: Expert 0, Expert 1, Expert 2, Expert 3 GPU 1: Expert 4, Expert 5, Expert 6, Expert 7 GPU 2: Expert 8, Expert 9, Expert 10, Expert 11 ... GPU 63: Expert 252, Expert 253, Expert 254, Expert 255

这就是 expert parallelism。每张 GPU 只装一部分专家,大幅降低单卡内存压力。

但出现了新问题:通信

一个 token 进来,router 决定「路由到 Expert 5 + Expert 100 + Expert 200」。这三个专家在三张不同的 GPU 上。这个 token 必须被发送到那三张 GPU,算完再收回来。

🔑 这就引入了「通信成本」——一个之前咱们完全没考虑过的维度。

更糟糕的是,每个 token 可能路由到任意几个专家。所以任意 GPU 都可能需要跟任意其他 GPU 通信。这种模式叫:

All-to-all 通信(全员对全员)


四、Rack 是什么——通信拓扑的物理现实

要理解 all-to-all 为什么是大事,得先认识硬件的物理形态。

物理结构

数据中心里,GPU 不是散乱摆放的,而是装在 机柜(rack) 里:

  • 一个 rack 是一个几米高、一两米宽的金属框架
  • 装大约 64-72 块 GPU(Blackwell 是 72)
  • 限制大小的是:供电、重量、散热

两种网络

GPU 之间有两套互联系统:

Scale-up 网络(机柜内,如 NVLink)

  • 在 rack 内部连接所有 GPU
  • 带宽极高(~1.8 TB/s 单向,NVLink 5)
  • 任意 GPU 间两跳就能通信(通过中间的 NV Switch)

Scale-out 网络(机柜间,如 InfiniBand)

  • 连接不同 rack 之间
  • 带宽约低 8 倍
  • 跨 rack 通信要绕路、要排队

🔑 8 倍带宽差距是个关键数字——它直接决定了「什么通信模式能在 rack 内做、什么不行」。

一张图

┌─────────── Rack 0(64 GPU)───────────┐ │ │ │ GPU0──┐ │ │ GPU1──┤ │ │ GPU2──┼──[ NV Switch 中央 ]──────GPU63│ │ ... │ ←─ scale-up 网络 │ │ GPU63─┘ 全员高速互联 │ │ │ │ └────────┼──────────────────────────────┘ │ ←─ scale-out 网络 │ 8× 慢 ┌────────┼──────────────────────────────┐ │ Rack 1(另外 64 GPU) │ └───────────────────────────────────────┘

为什么不把所有 GPU 都塞进一个 rack?

答案出奇地物理:线缆塞不下

  • rack 中间是 NV Switch
  • 每张 GPU 都要拉一根线到中央交换机
  • 64 张 GPU = 64 根高密度线缆
  • 想翻倍?线缆密度也得翻倍
  • 实际限制因素:连接器密度、布线弯曲半径、机械结构强度、散热气流

🔑 scale-up 的物理上限不是「芯片技术」问题,是「机械工程」问题


五、MoE 为什么「完美匹配」一个 rack

现在把 expert parallelism 和 rack 放一起看。

MoE 需要 all-to-all 通信:任何 GPU 都可能给任何 GPU 发数据。

  • 在 rack 内:✅ 全员高速互联,完美匹配
  • 跨 rack:❌ 8× 慢的网络成为瓶颈

🔑 结论MoE 推理最好整个铺在一个 rack 内

DeepSeek V3 有 256 个专家、一个 Blackwell rack 72 张 GPU——除不尽,简化用 64 张,每张装 4 个专家。这就是工程师们在白板上画的那个标准布局。

反推一个限制

这意味着:一个 rack 的容量,决定了一个 MoE 层能多大

  • Blackwell rack:72 × 192GB ≈ 13.8 TB 总内存
  • 这就是 MoE 模型「总参数」的天花板——同一个 rack 装得下的极限

🔑 这解释了「为什么前沿模型直到最近才突破 1T 参数」——Hopper rack 内存装不下,Blackwell rack 才装得下。不是不想做大,是装不下


六、Pipeline Parallelism——跨 rack 的方法

那如果模型大到一个 rack 装不下呢?或者你想用多 rack 提高吞吐?

这时候用 pipeline parallelism按层切

Rack 0: 第 1-20 层 Rack 1: 第 21-40 层 Rack 2: 第 41-60 层 Rack 3: 第 61-80 层

一个 token 走完整个流水线,经过 4 个 rack。

为什么 pipeline 适合跨 rack?

因为它的通信模式跟 MoE 完全不同

  • MoE:all-to-all(任意 GPU 对任意 GPU)
  • Pipeline:点对点(rack N 算完只把结果发给 rack N+1)

🔑 点对点通信对带宽要求低得多——而且只在 rack 边界发生一次,不像 MoE 那样每个 token 都要 all-to-all。

具体算一下:rack 0 算完一层,只需要把 token 的中间表示(几 KB)发给 rack 1。这个数据量太小,scale-out 网络 8× 慢也完全够用。

Pipeline 的代价:bubble(气泡)

但 pipeline 有个致命问题

想象一条流水线:rack 0 → rack 1 → rack 2 → rack 3:

时刻 1:rack 0 在算第 1 个 token,rack 1/2/3 全部闲着 时刻 2:rack 1 在算第 1 个 token,rack 0 在算第 2 个 token,rack 2/3 闲着 时刻 3:rack 2 在算第 1 个 token,rack 1 在算第 2 个,rack 0 在算第 3 个,rack 3 闲 时刻 4:全部 rack 都在工作 ✅

🔑 前 3 个时刻有 GPU 在干等——这就是 pipeline bubble(流水线气泡)

解决 bubble:micro-batch

让多个 batch 像火车一样流过流水线,只要队列填满,所有 rack 同时忙:

时间 → rack 0: B0 B1 B2 B3 B4 B5 ... rack 1: B0 B1 B2 B3 B4 ... rack 2: B0 B1 B2 B3 ... rack 3: B0 B1 B2 ... 这之后所有 rack 都满载

🔑 这正是工程师们说的那张「火车」图——多个 micro-batch 错峰填满流水线。火车的发车间隔约 20 ms(一个 token 在一个 rack 内的处理时间),所有 rack 同步发车,把 bubble 摊销掉。


七、Scale-up 真正解决的不是容量,是带宽

现在咱们能理解一句反直觉的话:

「Scale-up 真正解决的不是容量,是带宽。容量被 pipeline 解决了。」

这句话什么意思?

回到选项:

问题:模型太大,一个 rack 装不下

  • 方案 A:做更大的 rack(scale-up 加大)
  • 方案 B:用 pipeline,跨多个 rack

哪个方案解决「装不下」问题?

🔑 方案 B 解决得很好。Pipeline 让你把模型按层切到多个 rack,容量瓶颈消失。所以「装不下」不是 scale-up 加大的真正动机

那 scale-up 加大到底解决什么?

回到推理的根本瓶颈:搬参数的时间

T搬参数=Ntotal总带宽T_{\text{搬参数}} = \frac{N_{total}}{\text{总带宽}}

如果你把模型切到 64 张 GPU(一个 Blackwell rack),64 张 GPU 同时并行地搬各自负责的那部分参数 → 总带宽 = 64 × 单卡带宽。

如果你把模型切到 8 张 GPU(Hopper 时代一组 NVLink 域),只有 8 张 GPU 并行 → 总带宽 = 8 × 单卡带宽。

🔑 scale-up 越大 → 单次「搬参数」用更多卡并行 → 等效 BW 越大 → T_memory 越短 → 延迟下界越低、Batch 经济学越好

为什么 pipeline 不能解决带宽?

因为 pipeline 的不同阶段是串行的——rack 0 算完才轮到 rack 1。所以 pipeline 让你有更多内存容量,但并不让搬参数变快(任何时刻只有一个 rack 在为某 token 工作)。

🔑 一表总结

资源谁解决
内存容量(装下大模型)Pipeline
内存带宽(让搬参数快)Scale-up domain 大小

这就是 NVIDIA 拼命做大 rack 的真正原因——不是为了装更大的模型,是为了让现有模型跑得更快、Batch 经济学成立。


八、把这一切串起来——为什么 1T 模型直到最近才出现

现在你可以自己回答一个谜题了。GPT-4(2023)据传 1.8T 参数,但之后两年模型规模似乎卡住了,直到 2025 才开始动。为什么?

拼图各块

  1. MoE 模型的最大规模 = 一个 rack 能装下的总参数(因为要避免跨 rack 的 all-to-all)
  2. Hopper 时代:8 卡 NVLink 域 = 8 × 80GB = 640GB——能装 ~500B 参数,但 Batch 经济学很紧张
  3. Blackwell 时代:72 卡 rack = 72 × 192GB ≈ 14 TB——能装 1-2T 模型,且能 batch 出像样的甜蜜点
  4. 更大的 scale-up = 更大的等效带宽 = 推理经济学成立

🔑 结论1T+ 模型不是「现在才能训」,而是「现在才能经济地推理」

训练可以用更复杂的并行方案凑合,但推理对延迟敏感、对成本敏感,必须 scale-up domain 足够大才能让经济学成立。所以前沿模型规模等着 Blackwell 部署后才开始往上推。

📌 应用到选模型 / 选 provider模型规模 + 时代 + 硬件代际是耦合的。一个 2024 年前训练的 1T 模型,跑在 Hopper 集群上,经济学可能根本不成立——它「能跑」,但单位成本会很高。同样模型跑在 Blackwell 上,可能直接降本 3-5 倍。这影响你评估一个新模型 provider 的报价合不合理——它的硬件代际决定了它的成本底线。


九、一段话总结

🗺️

这一篇的关键事实

  • 模型可以按层切(pipeline)或按宽度切(expert / tensor)
  • Rack 是物理单元:64-72 张 GPU,由 NVLink 等 scale-up 网络全员高速互联
  • Scale-up(NVLink)比 scale-out(InfiniBand)快约 8×,限制因素是机械工程(线缆密度)
  • MoE 需要 all-to-all → 偏好放在一个 rack 内
  • Pipeline 需要点对点 → 适合跨 rack;用 micro-batch(火车)摊销 bubble
  • Scale-up 真正解决的是「带宽」,不是「容量」——容量由 pipeline 解决
  • 1T 模型不是现在才能训,而是现在才能经济地推理——所以它等着 Blackwell 才登场

十、留几个可以自己想的问题

  1. 某 startup 宣称用自研互联技术做了一个 256-GPU 的 scale-up domain(远超 Blackwell 的 72)。它说要专门服务「超大 MoE 模型」。这个产品定位技术上合不合理?商业上呢——它的真正客户是谁?
  2. OpenAI / Anthropic 这种公司有自有应用层(ChatGPT / Claude.ai),用户量极大。一个独立 inference provider(Together AI / Fireworks 等)主要服务 API 客户。为什么大厂能用 1T+ 模型,而独立 provider 更倾向于服务 70B-200B 这种「中等规模」模型? 提示:结合第三篇的规模经济 + 本篇的 rack 经济。
  3. 如果有一天 NVLink 的物理上限被突破,单 rack 能装 200 张 GPU,哪类模型会立刻受益最多?是 1T 稠密模型、5T MoE,还是别的什么?为什么?
  4. Pipeline parallelism 适合「容量瓶颈」;scale-up 加大适合「带宽瓶颈」。一个 70B 稠密模型在 Blackwell 单 rack 上跑——它的主要瓶颈是哪个?换成 Hopper 8 卡呢?

🚀

下一篇预告:到现在为止咱们都在看「一个模型怎么部署」。下一篇咱们离开「单个模型」的视角,去看一家 AI 公司的总算力账本——预训练、RL、推理三者的算力如何平衡、那个神秘的「6ND 公式」是怎么来的、为什么 GPT-5 级模型相对 Chinchilla optimal 过训了约 100 倍、以及它对产业意味着什么。代数密度会上一个台阶,但你前五篇打下的工具完全够用。

最后更新于: