阿里云为LLM自研以太网网络架构，替换NVLink

2024-07-01 来源：电子工程专辑

20718

阿里云近期宣布了一项重大技术创新，展示了其为大型语言模型（LLM）训练设计的数据中心网络架构，该架构基于以太网技术，已在生产环境中稳定运行长达8个月，标志着AI基础设施领域的一大突破。这一设计旨在优化数据传输效率，解决传统网络在处理大规模AI模型训练时面临的诸多挑战，特别是针对突发流量处理和网络负载均衡的问题。

专为GPU同步设计，应对LLM训练流量挑战

阿里云的高级工程师及网络研究科学家翟恩南通过GitHub公布了题为《Alibaba HPN: A Data Center Network for Large Language Model Training》的研究论文，该论文将在8月举办的SIGCOMM会议上发表。（SIGCOMM是计算机协会数据通信特别兴趣小组的年度聚会）

undefined

论文揭示，传统云计算流量通常涉及数百万个小规模流（小于10Gbps），而LLM训练则会在每个主机上产生周期性的突发流，流量高达400Gbps。这种特性导致了等价多路径路由（ECMP）技术中常见的哈希极化问题，影响了负载均衡和带宽的有效利用。

因此，阿里云自主研发了“高性能网络”（HPN），通过减少ECMP的使用，有效避免了哈希极化，同时精确选择网络路径以适应大规模流量需求。

考虑到GPU在LLM训练时需要高度同步工作，阿里云的网络设计特别考虑到了单点故障问题，使用了一款51.2 Tb/sec的以太网单芯片ToR（Top of Rack，ToR）交换机。每个用于训练的主机配备了8个GPU和9个网络接口卡（NIC），其中每个NIC有两个200GB/s的端口，确保了即使在单个交换机故障的情况下也能维持通信。

undefined

通过“轨道”设计，每个NIC对应一个GPU，实现了每个加速器享有400Gb/s的RDMA网络吞吐量，整体带宽达到了3.2Tb/s，最大化了GPU的PCIe Gen5 x16接口潜力。

以太网联盟与开放标准的胜利

有媒体认为，阿里云选择以太网是为了避免过度依赖特定供应商，并利用整个以太网联盟的力量实现更快的发展。这一决策与越来越多厂商开始支持以太网，逃离英伟达（NVIDIA）NVlink在云端AI互联上的垄断趋势相吻合。

尽管放弃了用于主机间通信的NVlink，阿里云仍然在主机内网络中使用了Nvidia的专有技术，因为主机内GPU之间的通信需要更大的带宽。然而，由于通道之间的通信速度较慢，每个主机提供的“专用400 Gbps RDMA网络吞吐量，总带宽达到3.2 Tbps”，足以最大化PCIe Gen5x16显卡的带宽。

undefined

阿里云选择以太网作为基础，还因为以太网联盟的支持和开放标准的长期优势。这一决策得到了AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨头的广泛欢迎，这些公司正通过Ultra Accelerator Link联盟等倡议，共同推动开放标准网络技术的发展，以期对抗NVIDIA在AI网络领域的主导地位。

数据中心的独特设计

阿里云的数据中心采用“Pod”模式，每个Pod可容纳15,000个GPU，与HPN结合，完美匹配了18MW建筑的功率限制。光纤长度的优化设计允许使用成本更低的多模光收发器。尽管HPN的引入增加了布线复杂度，但阿里云已经在探索更高效的设计，如下一代网络架构，预计将配备更高容量的单芯片交换机。

undefined

此外，阿里云在数据中心还采用了51.2Tb/s的以太网单芯片交换机，显著提升了网络吞吐量和稳定性，同时降低了能耗。然而，单芯片交换机在运行过程中面临高温难题，市场上缺乏有效散热解决方案。

undefined

为此，阿里云自主研发了以更多支柱为中心的均热板散热器，通过优化结构设计，有效控制了芯片温度，确保了交换机的稳定运行。

然而，HPN仍存在一些缺点，最大的缺点是其复杂的布线结构。每个主机有九个NIC，每个NIC连接到两个不同的ToR交换机，这增加了插孔和端口混淆的可能性。尽管如此，这项技术据称比NVlink更经济，从而使任何建立数据中心的机构都能在设置成本上节省大量资金（甚至可能使其避免使用Nvidia技术，特别是在中美芯片战中受到制裁的公司）。

登入后，方可留言>>

行业动态

2024年终盘点丨这一年，我们推动政策落地见效

全球科研向“四极”前沿发展

2025年中国工业软件市场规模及国产化情况预测分析（图）

热读文章

电子产业运行动态观察（2022年7月）

萨科微slkor宋仕强：解读电子信息产业“国产替代”

电子产业运行动态观察（2022.06.08）