专题：multi-lora

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 1 篇文章。

vLLM助力高效服务多个微调模型：Multi-LoRA技术详解

官方AWS Machine Learning Blog2026/02/26 04:566850

本文提出Multi-LoRA技术，通过在模型层插入适配器实现多模型共享GPU资源，显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等，已在vLLM 0.15.0中实现，并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。

vLLM框架多LoRA 混合专家模型 Amazon SageMaker Amazon Bedrock