随着大模型参数规模和训练数据量持续增长,算力需求快速提升,算力基础设施已由早期单机数卡部署,逐步演进为高密度算力机柜、液冷算力柜,再发展到跨机房、跨园区的大规模算力集群,实现万卡级乃至十万卡级协同计算。与此同时,单节点功耗、机柜功率密度以及集群总功耗持续攀升,对供电容量、配电架构、供电可靠性和能源利用效率提出了更高要求,算力与电力正加速形成深度耦合关系。
从SO到SA,其中一个因素是电力,所以先对算力对电力的需求有一个直观认识
算力集群对于电力的消耗
对于电力而言有下面的统计数字
万卡GPU集群(H100/H200) | 20–40 MW | 仅IT设备约10–20 MW,含网络、存储、制冷、PUE后约20–40 MW
万卡GB200集群 | 40–80 MW | 单GPU功耗更高,液冷要求更高
十万卡集群 | 200–500 MW | 已进入"电厂级"用电规模
小型核电站(1台机组) | 约1000 MW(1 GW) | 一台百万千瓦级核电机组
三峡水电站 | 22.5 GW装机 | 年发电量约1100–1200亿kWh
大致而言,一台核电机组理论上可以供20~50个万卡集群,三峡理论上可以同时供约700个30MW万卡集群或300多个70MW高密AI集群,
当然这只是装机容量比较,并非实际调度能力。
而xAI的Colossus 已达到约20万GPU,并规划百万GPU;当前功耗已达约250 MW。
算力硬件的不断“拓展”
在AI集群网络中,这三个缩写通常指:
SU:Scale-Up
SO:Scale-Out
SA:Scale-Across
它们描述的是AI算力之间不同范围的连接。
SU:Scale-Up,纵向扩展
Scale-Up 是把同一台服务器、机框或机架内的多个 GPU/XPU 高速连接起来,使它们尽可能表现为一个统一的大型计算系统。
GPU ─ GPU ─ GPU ─ GPU
同节点或同机架
典型技术包括:
NVLink;
NVSwitch;
UALink;
Scale-Up Ethernet;
专用高速互连。
Scale-Up网络通常连接数十到数千个紧密协同的XPU,对单跳时延、可靠有序传输和超高带宽要求极高。
为什么XPO常用于SU
Scale-Up可能要求单个XPU具备数Tbps乃至十几Tbps网络带宽,普通800G或1.6T光模块需要占用大量面板空间。
XPO通过一个高密度模块承载数十条高速通道,因此重点面向Scale-Up场景。相关产品已明确将12.8T XPO-LPO模块定位于低时延Scale-Up应用。
SO:Scale-Out,横向扩展
Scale-Out 是把不同服务器、机架或计算节点连接起来,通过增加更多独立计算节点扩大AI集群规模。
机架1 ─┐
机架2 ─┼─ Spine-Leaf网络
机架3 ─┘
它主要承担:
跨节点分布式训练;
数据并行、张量并行和流水线并行;
跨机架集合通信;
存储和数据访问。
Scale-Out通常采用:
InfiniBand;
RoCE Ethernet;
Spectrum-X;
基于Clos或Leaf-Spine的高速以太网。
与Scale-Up相比,Scale-Out的范围更大、连接节点更多,但单个XPU的接口带宽通常低于Scale-Up。Arista将Scale-Out进一步区分为面向GPU通信的后端网络,以及连接用户、存储和数据源的前端网络。
SA:Scale-Across,跨域扩展
Scale-Across 是把不同园区、不同数据中心,甚至不同城市或地区的AI集群连接起来,使多个分散的数据中心协同完成一个大型AI任务。
AI数据中心A
│
城域/广域光网络
│
AI数据中心B
│
AI数据中心C
它主要面向:
单个数据中心电力或空间不足;
多数据中心联合训练;
跨园区GPU资源池化;
超大AI Factory协同;
分布式推理和容灾。
Scale-Across面临的核心问题不再只是极低时延,而是:
长距离传播时延;
更大的带宽时延积;
跨域拥塞控制;
深缓存需求;
链路故障和性能波动;
多数据中心的时间同步和任务调度。
NVIDIA将Scale-Across定义为不同于Scale-Up和Scale-Out的第三个AI互连维度,用于把地理分散的数据中心连接成一个更大的AI工厂。