苹果LLM in a Flash技术助力本地运行Qwen 397B模型
Simon Willison2026/03/19 07:56机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
Dan Woods利用苹果LLM in a Flash技术,在本地运行Qwen 397B模型,通过量化和专家混合架构优化内存使用。实验显示,4位量化可实现每秒4.36个令牌的推理速度,且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。
正文
Dan Woods通过苹果2023年提出的 in a Flash技术,成功在配备48GB内存的MacBook Pro M3 Max上运行Qwen 3.5-397B-A17B模型,实现每秒5.5个令牌的推理速度。该模型在磁盘上占用209GB空间,其中120GB为量化后的数据。Qwen 3.5-397B-A17B是专家混合模型(),仅需在内存中加载部分权重。Dan使用Claude Code工具和Andrej Karpathy的自研方法(autoresearch pattern)进行了90次实验,最终生成了高效的MLX Objective-C和Metal代码。最新更新中,专家权重的量化精度提升至4位,运行速度提高至每秒4.36个令牌。研究指出,使用3个专家权重会导致性能显著下降,而4个专家权重则能保持较高效率。