专题：vram-management

如何在16GB显存+96GB内存环境下高效运行GLM 4.5 Air？

社区Reddit r/LocalLLaMA2026/02/10 17:0250

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s，远低于同等大小的其他模型（20 t/s）。用户尝试将专家层卸载到RAM以优化内存分配，但GLM 4.5 Air会崩溃，被迫使用`--fit`参数，导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法，并疑…

GLM 4.5 Air 模型部署性能优化显存管理大语言模型推理