Qwen3-ASR模型MLX重实现:Apple Silicon原生ASR性能新突破
Reddit r/LocalLLaMA2026/02/15 13:19机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
3/10
摘要
Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行,为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模,支持52种语言,并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示,其在M4 Pro上识别速度快,错误率低,且内存占用高效。这一进展为Apple生态系统中的AI应用开发者提供了强大的ASR解决方案。
正文
Qwen3-ASR,一款全新的开源自动语音识别(ASR)模型,现已通过MLX平台重新实现,专为Apple Silicon设计,能够原生运行在M系列GPU上,显著提升了性能和效率。
安装方式:
pip install mlx-qwen3-asr
性能亮点(基于M4 Pro,0.6B模型,fp16精度):
- 识别速度与准确率: 2.5秒语音片段识别时间仅0.46秒,错误率(WER)0.08%;10秒语音片段识别时间0.83秒,错误率同样为0.08%。
- 4位量化效果: 采用4位量化技术后,识别速度提升4.7倍,错误率在LibriSpeech测试数据集(n=100)上从2.29%变为2.72%。
- 多语言对比: 与官方PyTorch版本在多语言数据集上的错误率分别为15.99%(MLX版)和16.69%(PyTorch版),MLX版本表现略优。
核心特性:
- 模型规模与语言支持: 提供0.6B和1.7B两种规模模型,支持52种语言。
- 高级功能: 支持词级时间戳(通过MLX原生对齐器实现)、4位/8位量化技术、流式解码及推测性解码(实验性功能)。
- 输出格式: 支持txt、json、srt、vtt、tsv等多种输出格式。
- 测试结果: 所有测试结果均以JSON格式文件保存。
技术栈与资源占用:
- 依赖库: mlx, numpy, regex, huggingface-hub。
- 架构: 推理过程中不使用PyTorch的框架,完全基于MLX。
- 内存占用: 0.6B模型约1.2GB,1.7B模型约3.4GB。
项目背景: 该项目由Claude和Codex在情人节期间共同完成。未来将推出语音说话者识别功能。