Meta开源RCCLX:AMD平台GPU通信技术新突破
Engineering at Meta2026/02/25 05:30机翻/自动摘要/自动分类
5 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
Meta开源RCCLX,优化AMD平台GPU通信性能。引入DDA和低精度集体通信技术,显著提升预填充和解码阶段效率,并支持FP32和BF16数据类型。适用于单节点部署,与Torchcomms集成,便于开发者迁移。
正文
Meta近日开源了RCCLX,这是对原有RCCL通信库的改进版本,已在内部工作负载中测试。RCCLX与Torchcomms深度集成,旨在为研究人员和开发者提供跨后端的高效通信支持。文章重点介绍了两个新功能:直接数据访问(DDA)和低精度集体通信(Low Precision Collectives)。DDA通过优化节点内通信机制,显著提升了预填充和解码阶段的性能,分别达到10-50%和10-30%的提升。低精度集体通信则针对AMD Instinct MI300/MI350 GPU进行优化,支持FP32和BF16数据类型,利用FP8量化技术实现高达4:1的压缩比,从而降低通信开销,提升大规模数据下的可扩展性。这些算法采用并行点对点通信方式,充分利用AMD的Infinity Fabric技术。RCCLX作为自定义后端,与Torchcomms API集成,用户无需更改API即可在AMD平台上使用,同时也能兼容其他后端。目前,这些功能仅适用于单节点部署。