AI集群的长大 - SU、SO、SA

随着大模型参数规模和训练数据量持续增长，算力需求快速提升，算力基础设施已由早期单机数卡部署，逐步演进为高密度算力机柜、液冷算力柜，再发展到跨机房、跨园区的大规模算力集群，实现万卡级乃至十万卡级协同计算。与此同时，单节点功耗、机柜功率密度以及集群总功耗持续攀升，对供电容量、配电架构、供电可靠性和能源利用效率提出了更高要求，算力与电力正加速形成深度耦合关系。

从SO到SA，其中一个因素是电力，所以先对算力对电力的需求有一个直观认识

算力集群对于电力的消耗

对于电力而言有下面的统计数字

万卡GPU集群（H100/H200） | 20–40 MW | 仅IT设备约10–20 MW，含网络、存储、制冷、PUE后约20–40 MW

万卡GB200集群 | 40–80 MW | 单GPU功耗更高，液冷要求更高

十万卡集群 | 200–500 MW | 已进入"电厂级"用电规模

小型核电站（1台机组） | 约1000 MW（1 GW） | 一台百万千瓦级核电机组

三峡水电站 | 22.5 GW装机 | 年发电量约1100–1200亿kWh

大致而言，一台核电机组理论上可以供20~50个万卡集群，三峡理论上可以同时供约700个30MW万卡集群或300多个70MW高密AI集群，
当然这只是装机容量比较，并非实际调度能力。

而xAI的Colossus 已达到约20万GPU，并规划百万GPU；当前功耗已达约250 MW。

算力硬件的不断“拓展”

在AI集群网络中，这三个缩写通常指：

SU：Scale-Up
SO：Scale-Out
SA：Scale-Across

它们描述的是AI算力之间不同范围的连接。

SU：Scale-Up，纵向扩展

Scale-Up 是把同一台服务器、机框或机架内的多个 GPU/XPU 高速连接起来，使它们尽可能表现为一个统一的大型计算系统。

GPU ─ GPU ─ GPU ─ GPU
同节点或同机架

典型技术包括：

NVLink；
NVSwitch；
UALink；
Scale-Up Ethernet；
专用高速互连。

Scale-Up网络通常连接数十到数千个紧密协同的XPU，对单跳时延、可靠有序传输和超高带宽要求极高。

为什么XPO常用于SU

Scale-Up可能要求单个XPU具备数Tbps乃至十几Tbps网络带宽，普通800G或1.6T光模块需要占用大量面板空间。

XPO通过一个高密度模块承载数十条高速通道，因此重点面向Scale-Up场景。相关产品已明确将12.8T XPO-LPO模块定位于低时延Scale-Up应用。

SO：Scale-Out，横向扩展

Scale-Out 是把不同服务器、机架或计算节点连接起来，通过增加更多独立计算节点扩大AI集群规模。

机架1 ─┐
机架2 ─┼─ Spine-Leaf网络
机架3 ─┘

它主要承担：

跨节点分布式训练；
数据并行、张量并行和流水线并行；
跨机架集合通信；
存储和数据访问。

Scale-Out通常采用：

InfiniBand；
RoCE Ethernet；
Spectrum-X；
基于Clos或Leaf-Spine的高速以太网。

与Scale-Up相比，Scale-Out的范围更大、连接节点更多，但单个XPU的接口带宽通常低于Scale-Up。Arista将Scale-Out进一步区分为面向GPU通信的后端网络，以及连接用户、存储和数据源的前端网络。

SA：Scale-Across，跨域扩展

Scale-Across 是把不同园区、不同数据中心，甚至不同城市或地区的AI集群连接起来，使多个分散的数据中心协同完成一个大型AI任务。

AI数据中心A
│
城域/广域光网络
│
AI数据中心B
│
AI数据中心C

它主要面向：

单个数据中心电力或空间不足；
多数据中心联合训练；
跨园区GPU资源池化；
超大AI Factory协同；
分布式推理和容灾。

Scale-Across面临的核心问题不再只是极低时延，而是：

长距离传播时延；
更大的带宽时延积；
跨域拥塞控制；
深缓存需求；
链路故障和性能波动；
多数据中心的时间同步和任务调度。

NVIDIA将Scale-Across定义为不同于Scale-Up和Scale-Out的第三个AI互连维度，用于把地理分散的数据中心连接成一个更大的AI工厂。