vLLM在NVIDIA Blackwell GPU上运行GLM 4.7 AWQ模型:遭遇崩溃与性能瓶颈
Reddit r/LocalLLaMA2026/02/11 12:37机翻/自动摘要/自动分类
4 阅读
摘要
一位用户报告了在NVIDIA Blackwell GPU上使用vLLM 0.14.1运行GLM 4.7 AWQ量化模型时遇到的部署问题。具体表现为,服务在处理约10万Token后挂起并崩溃。用户发现,后续vLLM版本在Blackwell上启动即崩溃,社区已有相关issue。这揭示了vLLM在支持NVIDIA Blackwell架构时存在的严重兼容性与稳定性挑战,对计划在该硬件上部署大模型的开发者具有重要参考价值,需警惕潜在的软件缺陷。
正文
一位用户报告了在使用vLLM 0.14.1版本在NVIDIA Blackwell GPU上运行GLM 4.7 AWQ量化模型时遇到的严重问题。该用户尝试使用QuantTio(可能是指量化工具或库)进行部署。在处理约10万个后,vLLM服务会无故挂起,随后日志显示异步进程失败,最终导致vLLM崩溃。用户指出,在vLLM 0.14.1版本中,Blackwell架构似乎尚能勉强工作,但后续的vLLM版本在启动后不久便会直接崩溃。目前,社区已有一个公开的issue,明确指出Blackwell架构在后续vLLM版本中存在完全损坏(totally broken)的问题,这表明vLLM对NVIDIA Blackwell GPU的兼容性和稳定性存在严重缺陷。