英伟达B200算力浪费60%？普林斯顿团队推出FlashAttention-4提升利用率至71%

量子位2026/03/18 08:31机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

5/10

摘要

英伟达B200 GPU因软硬件不匹配导致算力浪费，FlashAttention-4通过算法优化将利用率提升至71%，并实现编译效率飞跃，适用于大模型训练与推理。

正文

英伟达Blackwell B200 GPU虽然拥有2.25 PFLOPS的张量核心算力，但因软硬件适配问题，实际利用率仅为20%-30%，浪费严重。普林斯顿大学联合Meta、Together AI等团队开发的FlashAttention-4算法通过多项优化策略，将利用率提升至71%。该算法采用软件模拟指数运算、条件性softmax rescaling以及2-CTA MMA模式，有效缓解了共享内存带宽压力。同时，FlashAttention-4基于Python的CuTe-DSL框架编写，实现零C++代码开发，大幅提升了编译效率。实测数据显示，其在B200上的前向传播算力达到1613 TFLOPS/s，性能优于主流框架如cuDNN和Triton。此外，论文指出英伟达已开始吸收FA4的核心技术。

英伟达B200算力浪费60%？普林斯顿团队推出FlashAttention-4提升利用率至71%

内容评分

摘要

正文

标签