专题:vllm

按该标签聚合的大模型资讯列表(自动分类与标签提取)。9 篇文章。

社区Hacker News2026/04/04 23:185610
sllm 提供共享专用 GPU 节点的推理服务
费用低至小模型每月 5 美元,团队满员前免付费

sllm 是一项面向开发者的共享 GPU 推理服务,允许团队共同使用专用 GPU 节点,以极低费用(小模型月费 5 美元起)调用大模型,如 DeepSeek V3。平台承诺数据不被记录,提供兼容 OpenAI 的 API,用户只需更换 URL 即可使用。该方案通过资源共享降低了大模型的使用成本,提升了隐私安全性。

媒体AWS Machine Learning Blog2026/03/17 00:557920
llm-d 实现 LLM 分布式推理优化
分离 prefill 和 decode 阶段提升效率

AWS 与 llm-d 合作推出分布式推理技术,优化 LLM 的预填充和解码阶段,提升性能与资源利用率。通过智能调度、并行处理和分层缓存机制,llm-d 支持多节点部署,适用于大规模模型和复杂工作负载。

官方AWS Machine Learning Blog2026/03/14 03:276950
P-EAGLE 并行生成草稿令牌提升推理速度
解决 EAGLE 自回归生成的性能瓶颈

P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法,解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成,提供预训练模型,支持多种基准测试,并在不同并发度下实现显著加速。

官方Docker Blog2026/02/26 22:426830
Docker Model Runner 支持 Apple Silicon 的 vLLM 推理
vllm-metal 整合 MLX 和 PyTorch 提升性能

Docker Model Runner 新增对 Apple Silicon 的支持,通过 vllm-metal 后端实现高性能 LLM 推理。该后端整合 MLX 和 PyTorch,利用统一内存机制和优化技术提升吞吐量,降低开发成本。适用于 macOS、Linux 和 WSL2 平台,支持多种量化模型。

社区Reddit r/LocalLLaMA2026/02/20 22:142640

本文针对拥有 4 块 NVIDIA H200(共约 320 GB 显存)的用户,系统评估并推荐了在该硬件上运行的最佳开源大模型,重点包括 Llama 3 70B‑Instruct、Mixtral‑8x7B‑Instruct、Phi‑3‑mini‑128K、Gemma 2‑27B‑Instruct 与 StarCoder2‑15B。提供了基于 vLLM 的多…

社区Reddit r/LocalLLaMA2026/02/12 22:3750

本文揭示了在使用 VLLM 推理框架时,当部署于异构 GPU 环境并结合 FP8 量化模型(特别是 Unsloth 优化的模型)时,可能出现的精度丢失和输出错误问题。具体表现为文本生成中出现乱码、重复字符、缺失空格及格式错误等。初步分析指向 VLLM 在处理异构硬件时的数字溢出问题。该问题对模型输出的准确性和安全性构成潜在风险。文章建议用户在遇到此类问题时…