专题：llm-quantization

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

vLLM在NVIDIA Blackwell GPU上运行GLM 4.7 AWQ模型：遭遇崩溃与性能瓶颈

社区Reddit r/LocalLLaMA2026/02/11 12:3740

一位用户报告了在NVIDIA Blackwell GPU上使用vLLM 0.14.1运行GLM 4.7 AWQ量化模型时遇到的部署问题。具体表现为，服务在处理约10万Token后挂起并崩溃。用户发现，后续vLLM版本在Blackwell上启动即崩溃，社区已有相关issue。这揭示了vLLM在支持NVIDIA Blackwell架构时存在的严重兼容性与稳定性…

大模型量化 NVIDIA Blackwell架构 GPU部署稳定性问题

LLM量化：新手困惑与求助

原文

社区Reddit r/LocalLLaMA2026/02/08 18:2530

一位刚接触本地模型运行的用户，对LLM量化技术感到非常困惑。他表示难以理解GGUF及其他常见量化方式，如int4、int8、Q4_K_M、Q5_K_M、iQ4_K_M等具体含义及区别。同时，对于F16、BF16、FP16、FP8等浮点精度格式也一头雾水。尽管查阅了现有解释，但因其复杂性而未能理解，因此寻求社区的帮助与指导。

大模型量化 GGUF格式整数量化浮点精度模型推理