Qwen3系列模型在不同架构与硬件下的推理性能实测分析

Reddit r/LocalLLaMA2026/03/04 20:41机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

4/10

摘要

本文对Qwen3系列模型在不同量化架构和硬件下的推理速度进行了实测分析，揭示了参数量、量化方式和硬件配置对模型性能的影响。重点对比了A3B与GGUF架构的差异，并指出Qwen3.5模型在当前配置下性能受限。

正文

LM Studio持续更新中，展示了Qwen3系列多个版本在不同量化架构和硬件环境下的推理速度表现。Qwen3 30B A3B模型在8位MLX架构下运行速度超过60 /秒，而Qwen3 Next 80B A3B模型虽然名称含‘Next’，但实际参数量远小于Qwen3 30B A3B，仅在6位MLX架构下达到50 /秒以上。Qwen3.5 27B模型在8位MLX架构下运行速度为12 /秒，而35B A3B和122B A10B模型则采用GGUF架构，速度更慢。测试显示，即使在96GB内存的M2 Max处理器上，Qwen3.5模型的运行速度仍难以突破10 /秒。此外，GPT OSS 120B GGUF模型在Mac上表现优于Qwen3.5密集型模型。

Qwen3系列模型在不同架构与硬件下的推理性能实测分析

内容评分

摘要

正文

标签