Kitten TTS发布三款微型TTS模型,参数量低至14M且支持多语言
Hacker News2026/03/19 23:56机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
Kitten TTS 发布三款微型TTS模型,参数量低至14M,支持八种声音,可在无GPU设备上运行,显著提升设备端语音合成能力,未来将扩展至多语言。
正文
Kitten TTS 是一个开源的文本转语音(TTS)项目,专注于开发体积小巧但表现力强的模型,适用于设备端部署。近日,项目团队发布了三款新模型,参数量分别为80M、40M和14M。其中,80M模型音质最佳,而14M模型在表现力方面达到了当前同类模型的最先进水平(SOTA)。这些模型支持八种声音(四种男性、四种女性),并适用于英语文本转语音。模型采用int8和fp16量化技术,基于ONNX框架运行,可在树莓派、低端手机、可穿戴设备和浏览器中部署,无需GPU。此次更新标志着设备端TTS模型性能的显著提升,未来还将扩展至多语言支持。项目旨在推动AI模型在边缘设备上的应用,减少对云端计算的依赖。