- 对于数据中心光模块来说,绝大部分返厂的故障件都是因为脏污,本体元器件失效的占比确实不高(AI集群中29%的光链路故障中,64.7%由端面污染引起,仅9.3%为模块本体失效)
ZR/ZR+
- ZR光模块支持400G PS-DP-16QAM传输,距离在80-120km
- ZR+光模块支持灵活速率,支持400km甚至更远,覆盖城域网和区域网
- ZR模块触及了光传输系统向“IP-over-DWDM”(IP/Ethernet 直接承载在波分复用上)架构演进的核心,在特定的应用场景下,使用 ZR 光模块(以及 ZR+)可以省略传统光传输系统中的部分或全部 OTN(光传送网)电层功能
- 如果客户端信号是 Ethernet,那么400G ZR 使得相干接口可以直接插入路由器或交换机的 QSFP-DD 端口。路由器可以直接输出 DWDM 波长,不需要独立的 OTN 转发器
- ZR/ZR+ 接收的是 IP 设备的电信号,然后在内部完成了 OTN/FEC 封装和电光转换,直接输出彩光
OTN电层
- 进行业务的适配和透明传送,也即封装,将不同速率、不同格式的客户端业务(如 Ethernet 以太网、SDH/SONET 同步数字体系、Fiber Channel 光纤通道等)统一映射和封装到标准的 ODU (Optical channel Data Unit,光通道数据单元) 容器中
- ODU 帧结构中加入了FEC编码开销;OTN 电层提供灵活、快速的业务保护倒换机制
- 接收来自 IP 设备的非标准波长灰光信号,将处理后的电信号驱动到一个精确的、WDM 系统指定的波长激光器上,输出彩光
- 传统的 OTN 平台提供了成熟的电信级网络生存性和保护功能,例如 ODUk 级别的 SNCP 保护倒换(毫秒级)、复杂的环网保护、以及全面的 TCM(串联连接监视)和 PM(性能监视)
SNCP保护
- SNCP 保护就是通过在网络中预先建立一条主用路径和一条备用路径,在主用路径发生故障时,快速切换到备用路径,从而确保业务不中断;它保护的是客户业务数据(如 10G/40G/100G 以太网、SDH 业务等)经过 OTN 映射后的数据单元(即ODUk通道)
- 双发选收;OTN 网络要求 SNCP 保护的倒换时间应小于 50 毫秒,以确保电信级业务的连续性
IP-over-DWDM / Ethernet-over-OTN
- 未来的光传输系统中,**ZR/ZR+ 模块会取代很大一部分传统的 OTN 电层设备,特别是在数据中心互连(DCI)和大部分城域网中。但“完全取代”和“完全淘汰” OTN 设备在短期内不太可能实现,尤其是在复杂的骨干网和对业务保护要求极高的场景中
- 城域核心与骨干网仍然需要高密度、模块化的 OTN 交叉平台,负责复杂的多业务汇聚、灵活交叉和电信级保护
大模型训推相关
推理
- 对于大模型推理,显存占用 = 模型参数 + KV Cache + 临时缓冲区(activation/通信)
- 大模型参数在多卡推理时会被均分,TP 下参数被切分,如 14B → 8卡各 ~1.75B(14B模型)
- KV Cache 与batch size × seq_len × num_layers成正比,每个卡都要存完整 KV Cache 副本
- 多卡推理时,通信中间结果(如 all-reduce buffer)可能反增
训练
- 在训练过程中,激活值 = 前向传播中每层的中间输出(如 hidden_states, attn_weights),反向传播时需按顺序重计算或读取 → 无法像参数那样“分片”,即使 Data Parallel,每个卡仍要存完整 batch 的激活