大模型资讯聚合站

首页/详情

Qwen3-ASR模型MLX重实现：Apple Silicon原生ASR性能新突破

Reddit r/LocalLLaMA2026/02/15 13:19机翻/自动摘要/自动分类

4 阅读

内容评分

技术含量

8/10

营销水分

3/10

摘要

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行，为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模，支持52种语言，并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示，其在M4 Pro上识别速度快，错误率低，且内存占用高效。这一进展为Apple生态系统中的AI应用开发者提供了强大的ASR解决方案。

正文

Qwen3-ASR，一款全新的开源自动语音识别（ASR）模型，现已通过MLX平台重新实现，专为Apple Silicon设计，能够原生运行在M系列GPU上，显著提升了性能和效率。

安装方式：

pip install mlx-qwen3-asr

性能亮点（基于M4 Pro，0.6B模型，fp16精度）：

识别速度与准确率： 2.5秒语音片段识别时间仅0.46秒，错误率（WER）0.08%；10秒语音片段识别时间0.83秒，错误率同样为0.08%。
4位量化效果： 采用4位量化技术后，识别速度提升4.7倍，错误率在LibriSpeech测试数据集（n=100）上从2.29%变为2.72%。
多语言对比： 与官方PyTorch版本在多语言数据集上的错误率分别为15.99%（MLX版）和16.69%（PyTorch版），MLX版本表现略优。

核心特性：

模型规模与语言支持： 提供0.6B和1.7B两种规模模型，支持52种语言。
高级功能： 支持词级时间戳（通过MLX原生对齐器实现）、4位/8位量化技术、流式解码及推测性解码（实验性功能）。
输出格式： 支持txt、json、srt、vtt、tsv等多种输出格式。
测试结果： 所有测试结果均以JSON格式文件保存。

技术栈与资源占用：

依赖库： mlx, numpy, regex, huggingface-hub。
架构： 推理过程中不使用PyTorch的框架，完全基于MLX。
内存占用： 0.6B模型约1.2GB，1.7B模型约3.4GB。

项目背景： 该项目由Claude和Codex在情人节期间共同完成。未来将推出语音说话者识别功能。

标签

MLX框架语音识别 Qwen3 模型 Apple Silicon 量化技术