Meta千兆瓦级AI集群的后端聚合技术解析
Engineering at Meta2026/02/10 01:00机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
Meta通过BAG技术构建千兆瓦级AI集群,实现跨数据中心和地区的高效GPU互联。该技术结合DSF和NSF架构,采用模块化硬件与弹性拓扑,支持高带宽和可靠连接,为AI基础设施的扩展和创新提供关键支撑。
正文
Meta在构建其千兆瓦级AI集群(如Prometheus)时,采用了后端聚合(Backend Aggregation, BAG)技术,以实现跨多个数据中心和地区的高效GPU互联。BAG结合了两种网络架构:分散式调度架构(Disaggregated Schedule Fabric, DSF)和非调度架构(Non-Scheduled Fabric, NSF)。该技术通过模块化硬件、先进路由机制(如eBGP和UCMP)以及弹性拓扑结构,确保了大规模AI集群的高性能与可靠性。BAG层作为区域网络与Meta骨干网络的汇聚点,支持高达拍比特级别的跨区域连接能力。此外,BAG的连接方式包括平面拓扑(Planar Topology)和分布式拓扑(Spread Topology),前者便于管理但存在集中故障风险,后者则提升了路径多样性和系统容错能力。网络设计还考虑了端口分配、IP地址规划和故障域分析,以优化系统可用性。