sllm 是一项面向开发者的共享 GPU 推理服务,允许团队共同使用专用 GPU 节点,以极低费用(小模型月费 5 美元起)调用大模型,如 DeepSeek V3。平台承诺数据不被记录,提供兼容 OpenAI 的 API,用户只需更换 URL 即可使用。该方案通过资源共享降低了大模型的使用成本,提升了隐私安全性。
专题:vllm
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 9 篇文章。
本文分析了 vLLM 中内存泄漏调试的挑战,指出堆内存工具可能误导开发者。通过案例和技巧,帮助识别和解决隐藏的内存问题,提升模型性能与资源效率。
AWS 与 llm-d 合作推出分布式推理技术,优化 LLM 的预填充和解码阶段,提升性能与资源利用率。通过智能调度、并行处理和分层缓存机制,llm-d 支持多节点部署,适用于大规模模型和复杂工作负载。
P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法,解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成,提供预训练模型,支持多种基准测试,并在不同并发度下实现显著加速。
Docker Model Runner 新增对 Apple Silicon 的支持,通过 vllm-metal 后端实现高性能 LLM 推理。该后端整合 MLX 和 PyTorch,利用统一内存机制和优化技术提升吞吐量,降低开发成本。适用于 macOS、Linux 和 WSL2 平台,支持多种量化模型。
本文提出Multi-LoRA技术,通过在模型层插入适配器实现多模型共享GPU资源,显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等,已在vLLM 0.15.0中实现,并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。
本文针对拥有 4 块 NVIDIA H200(共约 320 GB 显存)的用户,系统评估并推荐了在该硬件上运行的最佳开源大模型,重点包括 Llama 3 70B‑Instruct、Mixtral‑8x7B‑Instruct、Phi‑3‑mini‑128K、Gemma 2‑27B‑Instruct 与 StarCoder2‑15B。提供了基于 vLLM 的多…
文章探讨了AI模型本地化与个性化学习的未来趋势,指出当前LLM的同质化问题,并提出构建能够持续学习和适应用户需求的本地AI产品(如tinybox)的愿景。强调了本地模型在用户独特性与计算资源上的优势,同时指出其面临的挑战。
本文揭示了在使用 VLLM 推理框架时,当部署于异构 GPU 环境并结合 FP8 量化模型(特别是 Unsloth 优化的模型)时,可能出现的精度丢失和输出错误问题。具体表现为文本生成中出现乱码、重复字符、缺失空格及格式错误等。初步分析指向 VLLM 在处理异构硬件时的数字溢出问题。该问题对模型输出的准确性和安全性构成潜在风险。文章建议用户在遇到此类问题时…