Docker Model Runner 支持 Apple Silicon 的 vLLM 推理引擎 vllm-metal

Docker Blog2026/02/26 22:42机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

6/10

摘要

Docker Model Runner 新增对 Apple Silicon 的支持，通过 vllm-metal 后端实现高性能 LLM 推理。该后端整合 MLX 和 PyTorch，利用统一内存机制和优化技术提升吞吐量，降低开发成本。适用于 macOS、Linux 和 WSL2 平台，支持多种量化模型。

正文

Docker Model Runner 现已支持在 Apple Silicon 的 macOS 上运行 vLLM 推理引擎，通过新增的 vllm-metal 后端实现高性能的推理。该后端由 Docker 与 vLLM 项目联合开发，整合了 Apple 的 MLX 框架和 PyTorch，使 MLX 格式的模型能够在 Metal GPU 上高效执行。vllm-metal 利用 Apple Silicon 的统一内存机制，结合分页注意力和分组查询注意力技术，显著提升了推理性能并降低了开发成本。目前，Docker Model Runner 支持 Linux、Windows（WSL2）和 macOS 三大平台，开发者可通过升级 Docker Desktop 并安装 vllm-metal 后端快速上手。此外，vllm-metal 已开源并贡献给 vLLM 社区，支持如 Llama-3.2-1B-Instruct-4bit 等量化模型。

Docker Model Runner 支持 Apple Silicon 的 vLLM 推理引擎 vllm-metal

内容评分

摘要

正文

标签