专题：metal

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

苹果LLM in a Flash技术助力本地运行Qwen 397B模型

官方Simon Willison2026/03/19 07:566840

• 苹果技术实现本地运行大模型

• 量化优化降低内存占用

Dan Woods利用苹果LLM in a Flash技术，在本地运行Qwen 397B模型，通过量化和专家混合架构优化内存使用。实验显示，4位量化可实现每秒4.36个令牌的推理速度，且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

LLM in a Flash 混合专家模型量化技术 MLX框架内存优化

Docker Model Runner 支持 Apple Silicon 的 vLLM 推理引擎 vllm-metal

原文

官方Docker Blog2026/02/26 22:426830

• Docker Model Runner 支持 Apple Silicon 的 vLLM 推理

• vllm-metal 整合 MLX 和 PyTorch 提升性能

Docker Model Runner 新增对 Apple Silicon 的支持，通过 vllm-metal 后端实现高性能 LLM 推理。该后端整合 MLX 和 PyTorch，利用统一内存机制和优化技术提升吞吐量，降低开发成本。适用于 macOS、Linux 和 WSL2 平台，支持多种量化模型。

vLLM框架 Docker Apple Silicon Metal LLM模型