专题：asr

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

AI领域今日动态：新模型发布与工具优化

媒体AINews2026/03/24 13:446830

• 谷歌发布Gemini 3.1 Flash Live提升语音性能

• Mistral和Cohere推出新TTS与音频转文本工具

今日AI领域动态涵盖新模型发布、工具优化及社区讨论。谷歌推出Gemini 3.1 Flash Live，提升语音模型性能；Mistral和Cohere分别发布TTS和音频转文本工具；Cline Kanban等开源工具优化编码效率；Sakana AI推进自动化研究，NVIDIA和Intel发布新GPU产品。社区对模型准确性和公司战略调整展开讨论。

文本转语音向量量化 GPU加速优化 AI模型大语言模型

NVIDIA Nemotron Speech ASR模型在AWS上的领域微调实践

原文

媒体AWS Machine Learning Blog2026/03/12 23:577930

• 微调NVIDIA ASR模型以适应医疗领域

• 结合AWS与开源工具构建ASR系统

本文介绍如何在AWS上微调NVIDIA Parakeet TDT 0.6B V2 ASR模型，以适应医疗等特定领域。通过合成数据和开源工具，构建端到端系统，提升模型在医学术语、口音和噪声环境下的识别性能，并实现高效部署。

NVIDIA Parakeet模型语音识别模型微调 AWS DeepSpeed分布式训练

Qwen3-ASR模型MLX重实现：Apple Silicon原生ASR性能新突破

原文

社区Reddit r/LocalLLaMA2026/02/15 13:193830

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行，为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模，支持52种语言，并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示，其在M4 Pro上识别速度快，错误率低，且内存占用高效。这一进展为Apple生态系统中的AI应用开…

Apple Silicon MLX框架语音识别 Qwen3 模型量化优化

PazaBench：面向低资源语言的自动语音识别基准与模型发布

原文

官方Microsoft Research Blog2026/02/05 13:077950

• PazaBench评估低资源非洲语言ASR模型

• Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench，首个针对低资源非洲语言的ASR基准，涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper，针对肯尼亚六种语言进行微调，提升转录质量与跨语言泛化能力。通过实地测试和社区反馈，推动AI在未充分代表语言中的应用。

模型调优以用户为中心设计语音识别低资源语言社区测试