首页/详情

英伟达B200算力浪费60%?普林斯顿团队推出FlashAttention-4提升利用率至71%

量子位2026/03/18 08:31机翻/自动摘要/自动分类
2 阅读

内容评分

技术含量
9/10
营销水分
5/10

摘要

英伟达B200 GPU因软硬件不匹配导致算力浪费,FlashAttention-4通过算法优化将利用率提升至71%,并实现编译效率飞跃,适用于大模型训练与推理。

正文

英伟达Blackwell B200 GPU虽然拥有2.25 PFLOPS的张量核心算力,但因软硬件适配问题,实际利用率仅为20%-30%,浪费严重。普林斯顿大学联合Meta、Together AI等团队开发的FlashAttention-4算法通过多项优化策略,将利用率提升至71%。该算法采用软件模拟指数运算、条件性softmax rescaling以及2-CTA MMA模式,有效缓解了共享内存带宽压力。同时,FlashAttention-4基于Python的CuTe-DSL框架编写,实现零C++代码开发,大幅提升了编译效率。实测数据显示,其在B200上的前向传播算力达到1613 TFLOPS/s,性能优于主流框架如cuDNN和Triton。此外,论文指出英伟达已开始吸收FA4的核心技术。

标签