PazaBench：面向低资源语言的自动语音识别基准与模型发布

Microsoft Research Blog2026/02/05 13:07机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

7/10

摘要

微软发布PazaBench，首个针对低资源非洲语言的ASR基准，涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper，针对肯尼亚六种语言进行微调，提升转录质量与跨语言泛化能力。通过实地测试和社区反馈，推动AI在未充分代表语言中的应用。

正文

微软研究院发布了PazaBench，这是首个专注于低资源语言的自动语音识别（ASR）基准排行榜，涵盖39种非洲语言，并对52个最先进的ASR和语言模型进行了评估。其中，Paza ASR模型为六种肯尼亚语言（斯瓦希里语、多卢奥语、卡伦金语、基库尤语、马萨伊语和索马里语）专门设计。该平台整合了多种风格的语音数据，包括对话、剧本朗读、非剧本、广播新闻和领域特定数据，为每种语言提供独立的评估界面。PazaBench关注数据集缺口，识别表现不佳的语言，并强调本地化模型在特定语言中的优势。此外，Paza系列模型包括基于Phi-4多模态指令、Meta mms-1b-all和OpenAI Whisper的三个版本，分别针对不同语言和应用场景进行了和优化。这些模型在实际环境中（如农民的日常使用）进行了测试，并通过反馈循环不断改进。微软还计划将方法总结为指南，以支持更广泛的AI生态系统在低资源语言上的数据收集、模型和评估。文章致谢了多个数据集和社区的贡献者，强调了与本地语言社区合作的重要性。

PazaBench：面向低资源语言的自动语音识别基准与模型发布

内容评分

摘要

正文

标签