社区Reddit r/LocalLLaMA2026/02/10 17:0250
用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑…
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 1 篇文章。
用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑…