苹果LLM in a Flash技术助力本地运行Qwen 397B模型

Simon Willison2026/03/19 07:56机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

6/10

摘要

Dan Woods利用苹果LLM in a Flash技术，在本地运行Qwen 397B模型，通过量化和专家混合架构优化内存使用。实验显示，4位量化可实现每秒4.36个令牌的推理速度，且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

正文

Dan Woods通过苹果2023年提出的 in a Flash技术，成功在配备48GB内存的MacBook Pro M3 Max上运行Qwen 3.5-397B-A17B模型，实现每秒5.5个令牌的推理速度。该模型在磁盘上占用209GB空间，其中120GB为量化后的数据。Qwen 3.5-397B-A17B是专家混合模型（），仅需在内存中加载部分权重。Dan使用Claude Code工具和Andrej Karpathy的自研方法（autoresearch pattern）进行了90次实验，最终生成了高效的MLX Objective-C和Metal代码。最新更新中，专家权重的量化精度提升至4位，运行速度提高至每秒4.36个令牌。研究指出，使用3个专家权重会导致性能显著下降，而4个专家权重则能保持较高效率。

苹果LLM in a Flash技术助力本地运行Qwen 397B模型

内容评分

摘要

正文

标签