首页/详情

Qwen3-ASR模型MLX重实现:Apple Silicon原生ASR性能新突破

Reddit r/LocalLLaMA2026/02/15 13:19机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
3/10

摘要

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行,为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模,支持52种语言,并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示,其在M4 Pro上识别速度快,错误率低,且内存占用高效。这一进展为Apple生态系统中的AI应用开发者提供了强大的ASR解决方案。

正文

Qwen3-ASR,一款全新的开源自动语音识别(ASR)模型,现已通过MLX平台重新实现,专为Apple Silicon设计,能够原生运行在M系列GPU上,显著提升了性能和效率。

安装方式:

pip install mlx-qwen3-asr

性能亮点(基于M4 Pro,0.6B模型,fp16精度):

  • 识别速度与准确率: 2.5秒语音片段识别时间仅0.46秒,错误率(WER)0.08%;10秒语音片段识别时间0.83秒,错误率同样为0.08%。
  • 4位量化效果: 采用4位量化技术后,识别速度提升4.7倍,错误率在LibriSpeech测试数据集(n=100)上从2.29%变为2.72%。
  • 多语言对比: 与官方PyTorch版本在多语言数据集上的错误率分别为15.99%(MLX版)和16.69%(PyTorch版),MLX版本表现略优。

核心特性:

  • 模型规模与语言支持: 提供0.6B和1.7B两种规模模型,支持52种语言。
  • 高级功能: 支持词级时间戳(通过MLX原生对齐器实现)、4位/8位量化技术、流式解码及推测性解码(实验性功能)。
  • 输出格式: 支持txt、json、srt、vtt、tsv等多种输出格式。
  • 测试结果: 所有测试结果均以JSON格式文件保存。

技术栈与资源占用:

  • 依赖库: mlx, numpy, regex, huggingface-hub。
  • 架构: 推理过程中不使用PyTorch的框架,完全基于MLX。
  • 内存占用: 0.6B模型约1.2GB,1.7B模型约3.4GB。

项目背景: 该项目由Claude和Codex在情人节期间共同完成。未来将推出语音说话者识别功能。

标签