如何在16GB显存+96GB内存环境下高效运行GLM 4.5 Air？

Reddit r/LocalLLaMA2026/02/10 17:02机翻/自动摘要/自动分类

摘要

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s，远低于同等大小的其他模型（20 t/s）。用户尝试将专家层卸载到RAM以优化内存分配，但GLM 4.5 Air会崩溃，被迫使用`--fit`参数，导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法，并疑问是否需要更大显存的GPU。

正文

你好。我尝试运行GLM 4.5 Air UD-Q4_K_XL已经有一段时间了。虽然它能运行，但与同文件大小（约65GB）的模型（如GPT OSS 120B MXFP4和Qwen3 Coder Next UD-Q6_K_XL）相比，性能非常差。GLM 4.5 Air的生成速度约为3 t/s，而GPT和Qwen则能达到约20 t/s。这种性能差异似乎与活跃参数的数量不成比例，所以我怀疑这不是内存带宽问题。相反，我怀疑是内存分配问题。在那些运行速度快的模型中，我通过-ot ".ffn_.*_exps.=CPU"将所有专家层卸载到RAM，这在显存和内存中都留下了大量空间，允许我在推理的同时舒适地使用电脑。但当我尝试对GLM 4.5 Air采用相同方法时，它会立即崩溃，无法分配一个约24GB的缓冲区（我怀疑是在GPU上），这迫使我使用--fit参数。虽然--fit确实能让模型运行，但它几乎耗尽了所有显存，并且导致与其它模型相比非常慢的生成速度。有没有办法能提高生成速度，哪怕只是一点点？或者这是否意味着非专家层需要一块拥有更多显存的GPU？谢谢。

如何在16GB显存+96GB内存环境下高效运行GLM 4.5 Air？

摘要

正文

标签