专题:asr

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体AINews2026/03/24 13:446830
谷歌发布Gemini 3.1 Flash Live提升语音性能
Mistral和Cohere推出新TTS与音频转文本工具

今日AI领域动态涵盖新模型发布、工具优化及社区讨论。谷歌推出Gemini 3.1 Flash Live,提升语音模型性能;Mistral和Cohere分别发布TTS和音频转文本工具;Cline Kanban等开源工具优化编码效率;Sakana AI推进自动化研究,NVIDIA和Intel发布新GPU产品。社区对模型准确性和公司战略调整展开讨论。

媒体AWS Machine Learning Blog2026/03/12 23:577930
微调NVIDIA ASR模型以适应医疗领域
结合AWS与开源工具构建ASR系统

本文介绍如何在AWS上微调NVIDIA Parakeet TDT 0.6B V2 ASR模型,以适应医疗等特定领域。通过合成数据和开源工具,构建端到端系统,提升模型在医学术语、口音和噪声环境下的识别性能,并实现高效部署。

社区Reddit r/LocalLLaMA2026/02/15 13:193830

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行,为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模,支持52种语言,并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示,其在M4 Pro上识别速度快,错误率低,且内存占用高效。这一进展为Apple生态系统中的AI应用开…

官方Microsoft Research Blog2026/02/05 13:077950
PazaBench评估低资源非洲语言ASR模型
Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench,首个针对低资源非洲语言的ASR基准,涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper,针对肯尼亚六种语言进行微调,提升转录质量与跨语言泛化能力。通过实地测试和社区反馈,推动AI在未充分代表语言中的应用。