大模型资讯聚合站

首页/详情

IQ2 量化模型在 Qwen3‑30B‑A3B 上的惊人加速与质量评测

Reddit r/LocalLLaMA2026/02/22 18:37机翻/自动摘要/自动分类

6 阅读

内容评分

技术含量

7/10

营销水分

5/10

摘要

作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端，对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示，IQ2 版在 20 K+ 上下文下实现约 100 TPS，速度是 Q4_K_M 的 5 倍，且显存占用仅 10 GB。质量方面，高中‑大学题目几乎与 Q4 持平，只有极端学术题目略有差距。作者质疑 IQ2 低调的原因，并呼吁社区分享类似经验。

正文

我长期使用 GGUF 格式的模型，始终坚持不低于 Q4_K_M 量化等级，因为低于该等级的模型在我眼里几乎不可用。近日，我在一块 16 GB 的 RTX 9060 XT 上尝试了 UD‑IQ2_XXS 量化的 Qwen3‑30B‑A3B（模型体积 10.3 GB），结果出乎意料。

性能

使用 llama.cpp（Vulkan 后端）加载 IQ2 版模型时，推理吞吐达 100 TPS（每秒 100 条提问），而同样的硬件上运行 Q4_K_M 版仅为 20 TPS。在超过 20 K 的情况下，IQ2 版仍保持约 5 倍的加速，且所有计算均在 GPU 完成，无需 CPU 介入。

质量

为了客观评估，我让 Claude Opus 4.6 生成一系列难度递增的学术题目（化学、数学、物理、相对论等），分别交给 IQ2 与 Q4_K_M 两个模型回答。高中及大学水平的题目，两者的答案几乎无差别；只有在极其专业的领域（如哥德尔不完备定理）IQ2 的得分略低（81 分）于 Q4（92 分）。
在一次图表分析任务中，本地运行的 IQ2 模型（占用约 10 GB 显存）给出了正确答案，而 Claude Opus 4.6 与 Sonnet 4.6 均误解了图表内容，答错了问题。

为何 IQ2 仍鲜有关注？

IQ2 量化在保持极低显存占用的同时，几乎不牺牲推理质量，且在特定硬件（Vulkan + llama.cpp）上可实现显著加速。可能是社区对“低位量化”仍存偏见，或缺乏系统化的基准报告导致其曝光度不足。

实验配置

GPU：AMD Radeon RX 9060 XT 16 GB
框架：llama.cpp（Vulkan）
模型：Qwen3‑30B‑A3B
量化版本：UD‑IQ2_XXS（GGUF）

如有其他开发者也在使用超低内存占用的量化模型，欢迎分享经验。

标签

GPU 推理加速模型评估 llama.cpp 量化技术