首页/详情

如何在16GB显存+96GB内存环境下高效运行GLM 4.5 Air?

Reddit r/LocalLLaMA2026/02/10 17:02机翻/自动摘要/自动分类
5 阅读

摘要

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑问是否需要更大显存的GPU。

正文

你好。 我尝试运行GLM 4.5 Air UD-Q4_K_XL已经有一段时间了。虽然它能运行,但与同文件大小(约65GB)的模型(如GPT OSS 120B MXFP4和Qwen3 Coder Next UD-Q6_K_XL)相比,性能非常差。GLM 4.5 Air的生成速度约为3 t/s,而GPT和Qwen则能达到约20 t/s。这种性能差异似乎与活跃参数的数量不成比例,所以我怀疑这不是内存带宽问题。 相反,我怀疑是内存分配问题。在那些运行速度快的模型中,我通过-ot ".ffn_.*_exps.=CPU"将所有专家层卸载到RAM,这在显存和内存中都留下了大量空间,允许我在推理的同时舒适地使用电脑。但当我尝试对GLM 4.5 Air采用相同方法时,它会立即崩溃,无法分配一个约24GB的缓冲区(我怀疑是在GPU上),这迫使我使用--fit参数。虽然--fit确实能让模型运行,但它几乎耗尽了所有显存,并且导致与其它模型相比非常慢的生成速度。 有没有办法能提高生成速度,哪怕只是一点点?或者这是否意味着非专家层需要一块拥有更多显存的GPU?谢谢。

标签