首页/详情

PazaBench:面向低资源语言的自动语音识别基准与模型发布

Microsoft Research Blog2026/02/05 13:07机翻/自动摘要/自动分类
6 阅读

内容评分

技术含量
9/10
营销水分
7/10

摘要

微软发布PazaBench,首个针对低资源非洲语言的ASR基准,涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper,针对肯尼亚六种语言进行微调,提升转录质量与跨语言泛化能力。通过实地测试和社区反馈,推动AI在未充分代表语言中的应用。

正文

微软研究院发布了PazaBench,这是首个专注于低资源语言的自动语音识别(ASR)基准排行榜,涵盖39种非洲语言,并对52个最先进的ASR和语言模型进行了评估。其中,Paza ASR模型为六种肯尼亚语言(斯瓦希里语、多卢奥语、卡伦金语、基库尤语、马萨伊语和索马里语)专门设计。该平台整合了多种风格的语音数据,包括对话、剧本朗读、非剧本、广播新闻和领域特定数据,为每种语言提供独立的评估界面。PazaBench关注数据集缺口,识别表现不佳的语言,并强调本地化模型在特定语言中的优势。此外,Paza系列模型包括基于Phi-4多模态指令、Meta mms-1b-all和OpenAI Whisper的三个版本,分别针对不同语言和应用场景进行了和优化。这些模型在实际环境中(如农民的日常使用)进行了测试,并通过反馈循环不断改进。微软还计划将方法总结为指南,以支持更广泛的AI生态系统在低资源语言上的数据收集、模型和评估。文章致谢了多个数据集和社区的贡献者,强调了与本地语言社区合作的重要性。

标签