首页/详情

流式专家技术:在有限内存下运行超大规模语言模型

Simon Willison2026/03/24 13:09机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
7/10

摘要

流式专家技术通过按需加载专家权重,使超大规模语言模型能在内存有限的设备上运行。已实现Qwen3.5-397B-A17B和Kimi K2.5模型在MacBook Pro和iPhone上的运行,处理速度逐步提升。该技术为本地化部署和边缘计算提供了新思路,具有较高的实用价值。

正文

近期,Dan Woods及其团队在‘流式专家’(Streaming Experts)技术上的实验引起了广泛关注。该技术允许在内存不足以容纳完整模型的设备上运行大型专家模型,通过按需从固态硬盘(SSD)加载每个处理过的令牌所需的专家权重数据,从而实现模型的高效运行。此前,Dan在仅48GB内存的机器上成功运行了Qwen3.5-397B-A17B模型。随后,用户@seikixtc在96GB内存的M2 Max MacBook Pro上实现了Kimi K2.5模型(参数量达1万亿,活跃权重320亿)的运行。此外,@anemll还展示了Qwen3.5-397B-A17B模型在iPhone上的运行,尽管处理速度仅为每秒0.6个令牌。Daniel Isaac进一步在128GB内存的M4 Max设备上实现了Kimi K2.5模型的运行,速度提升至每秒约1.7个令牌。这些案例表明,流式专家技术在实际部署中展现出良好的潜力。

标签