流式专家技术：在有限内存下运行超大规模语言模型

Simon Willison2026/03/24 13:09机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

7/10

摘要

流式专家技术通过按需加载专家权重，使超大规模语言模型能在内存有限的设备上运行。已实现Qwen3.5-397B-A17B和Kimi K2.5模型在MacBook Pro和iPhone上的运行，处理速度逐步提升。该技术为本地化部署和边缘计算提供了新思路，具有较高的实用价值。

正文

近期，Dan Woods及其团队在‘流式专家’（Streaming Experts）技术上的实验引起了广泛关注。该技术允许在内存不足以容纳完整模型的设备上运行大型专家模型，通过按需从固态硬盘（SSD）加载每个处理过的令牌所需的专家权重数据，从而实现模型的高效运行。此前，Dan在仅48GB内存的机器上成功运行了Qwen3.5-397B-A17B模型。随后，用户@seikixtc在96GB内存的M2 Max MacBook Pro上实现了Kimi K2.5模型（参数量达1万亿，活跃权重320亿）的运行。此外，@anemll还展示了Qwen3.5-397B-A17B模型在iPhone上的运行，尽管处理速度仅为每秒0.6个令牌。Daniel Isaac进一步在128GB内存的M4 Max设备上实现了Kimi K2.5模型的运行，速度提升至每秒约1.7个令牌。这些案例表明，流式专家技术在实际部署中展现出良好的潜力。

流式专家技术：在有限内存下运行超大规模语言模型

内容评分

摘要

正文

标签