首页/详情

Qwen3系列模型在不同架构与硬件下的推理性能实测分析

Reddit r/LocalLLaMA2026/03/04 20:41机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
7/10
营销水分
4/10

摘要

本文对Qwen3系列模型在不同量化架构和硬件下的推理速度进行了实测分析,揭示了参数量、量化方式和硬件配置对模型性能的影响。重点对比了A3B与GGUF架构的差异,并指出Qwen3.5模型在当前配置下性能受限。

正文

LM Studio持续更新中,展示了Qwen3系列多个版本在不同量化架构和硬件环境下的推理速度表现。Qwen3 30B A3B模型在8位MLX架构下运行速度超过60 /秒,而Qwen3 Next 80B A3B模型虽然名称含‘Next’,但实际参数量远小于Qwen3 30B A3B,仅在6位MLX架构下达到50 /秒以上。Qwen3.5 27B模型在8位MLX架构下运行速度为12 /秒,而35B A3B和122B A10B模型则采用GGUF架构,速度更慢。测试显示,即使在96GB内存的M2 Max处理器上,Qwen3.5模型的运行速度仍难以突破10 /秒。此外,GPT OSS 120B GGUF模型在Mac上表现优于Qwen3.5密集型模型。

标签