首页/详情

IQ2 量化模型在 Qwen3‑30B‑A3B 上的惊人加速与质量评测

Reddit r/LocalLLaMA2026/02/22 18:37机翻/自动摘要/自动分类
6 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端,对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示,IQ2 版在 20 K+ 上下文下实现约 100 TPS,速度是 Q4_K_M 的 5 倍,且显存占用仅 10 GB。质量方面,高中‑大学题目几乎与 Q4 持平,只有极端学术题目略有差距。作者质疑 IQ2 低调的原因,并呼吁社区分享类似经验。

正文

我长期使用 GGUF 格式的模型,始终坚持不低于 Q4_K_M 量化等级,因为低于该等级的模型在我眼里几乎不可用。近日,我在一块 16 GB 的 RTX 9060 XT 上尝试了 UD‑IQ2_XXS 量化的 Qwen3‑30B‑A3B(模型体积 10.3 GB),结果出乎意料。

性能

  • 使用 llama.cpp(Vulkan 后端)加载 IQ2 版模型时,推理吞吐达 100 TPS(每秒 100 条提问),而同样的硬件上运行 Q4_K_M 版仅为 20 TPS。在超过 20 K 的情况下,IQ2 版仍保持约 5 倍的加速,且所有计算均在 GPU 完成,无需 CPU 介入。

质量

  • 为了客观评估,我让 Claude Opus 4.6 生成一系列难度递增的学术题目(化学、数学、物理、相对论等),分别交给 IQ2 与 Q4_K_M 两个模型回答。高中及大学水平的题目,两者的答案几乎无差别;只有在极其专业的领域(如哥德尔不完备定理)IQ2 的得分略低(81 分)于 Q4(92 分)。
  • 在一次图表分析任务中,本地运行的 IQ2 模型(占用约 10 GB 显存)给出了正确答案,而 Claude Opus 4.6 与 Sonnet 4.6 均误解了图表内容,答错了问题。

为何 IQ2 仍鲜有关注?

  • IQ2 量化在保持极低显存占用的同时,几乎不牺牲推理质量,且在特定硬件(Vulkan + llama.cpp)上可实现显著加速。可能是社区对“低位量化”仍存偏见,或缺乏系统化的基准报告导致其曝光度不足。

实验配置

  • GPU:AMD Radeon RX 9060 XT 16 GB
  • 框架:llama.cpp(Vulkan)
  • 模型:Qwen3‑30B‑A3B
  • 量化版本:UD‑IQ2_XXS(GGUF)

如有其他开发者也在使用超低内存占用的量化模型,欢迎分享经验。

标签