vLLM在NVIDIA Blackwell GPU上运行GLM 4.7 AWQ模型：遭遇崩溃与性能瓶颈

Reddit r/LocalLLaMA2026/02/11 12:37机翻/自动摘要/自动分类

摘要

一位用户报告了在NVIDIA Blackwell GPU上使用vLLM 0.14.1运行GLM 4.7 AWQ量化模型时遇到的部署问题。具体表现为，服务在处理约10万Token后挂起并崩溃。用户发现，后续vLLM版本在Blackwell上启动即崩溃，社区已有相关issue。这揭示了vLLM在支持NVIDIA Blackwell架构时存在的严重兼容性与稳定性挑战，对计划在该硬件上部署大模型的开发者具有重要参考价值，需警惕潜在的软件缺陷。

正文

一位用户报告了在使用vLLM 0.14.1版本在NVIDIA Blackwell GPU上运行GLM 4.7 AWQ量化模型时遇到的严重问题。该用户尝试使用QuantTio（可能是指量化工具或库）进行部署。在处理约10万个后，vLLM服务会无故挂起，随后日志显示异步进程失败，最终导致vLLM崩溃。用户指出，在vLLM 0.14.1版本中，Blackwell架构似乎尚能勉强工作，但后续的vLLM版本在启动后不久便会直接崩溃。目前，社区已有一个公开的issue，明确指出Blackwell架构在后续vLLM版本中存在完全损坏（totally broken）的问题，这表明vLLM对NVIDIA Blackwell GPU的兼容性和稳定性存在严重缺陷。

vLLM在NVIDIA Blackwell GPU上运行GLM 4.7 AWQ模型：遭遇崩溃与性能瓶颈

摘要

正文

标签