Docker Model Runner 支持 Apple Silicon 的 vLLM 推理引擎 vllm-metal
Docker Blog2026/02/26 22:42机翻/自动摘要/自动分类
3 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
Docker Model Runner 新增对 Apple Silicon 的支持,通过 vllm-metal 后端实现高性能 LLM 推理。该后端整合 MLX 和 PyTorch,利用统一内存机制和优化技术提升吞吐量,降低开发成本。适用于 macOS、Linux 和 WSL2 平台,支持多种量化模型。
正文
Docker Model Runner 现已支持在 Apple Silicon 的 macOS 上运行 vLLM 推理引擎,通过新增的 vllm-metal 后端实现高性能的 推理。该后端由 Docker 与 vLLM 项目联合开发,整合了 Apple 的 MLX 框架和 PyTorch,使 MLX 格式的模型能够在 Metal GPU 上高效执行。vllm-metal 利用 Apple Silicon 的统一内存机制,结合分页注意力和分组查询注意力技术,显著提升了推理性能并降低了开发成本。目前,Docker Model Runner 支持 Linux、Windows(WSL2)和 macOS 三大平台,开发者可通过升级 Docker Desktop 并安装 vllm-metal 后端快速上手。此外,vllm-metal 已开源并贡献给 vLLM 社区,支持如 Llama-3.2-1B-Instruct-4bit 等量化模型。