专题：tts

今日AI领域动态涵盖新模型发布、工具优化及社区讨论。谷歌推出Gemini 3.1 Flash Live，提升语音模型性能；Mistral和Cohere分别发布TTS和音频转文本工具；Cline Kanban等开源工具优化编码效率；Sakana AI推进自动化研究，NVIDIA和Intel发布新GPU产品。社区对模型准确性和公司战略调整展开讨论。

文本转语音向量量化 GPU加速优化 AI模型大语言模型

Kitten TTS发布三款微型TTS模型，参数量低至14M且支持多语言

原文

社区Hacker News2026/03/19 23:566840

• 发布三款微型TTS模型，参数量低至14M

• 支持八种声音，无需GPU即可运行

Kitten TTS 发布三款微型TTS模型，参数量低至14M，支持八种声音，可在无GPU设备上运行，显著提升设备端语音合成能力，未来将扩展至多语言。

文本转语音量化优化 ONNX模型边缘AI 开源环境

小米发布MiMo V2系列大模型，涵盖文本、多模态与语音合成

原文

媒体爱范儿2026/03/19 16:127830

• 小米发布MiMo V2系列模型

• MiMo-V2-Pro性能全球第八

小米发布MiMo V2系列模型，涵盖文本、多模态与语音合成。MiMo-V2-Pro性能优异，价格仅为同类产品五分之一，采用混合注意力架构和MTP技术。MiMo-V2-Omni具备全模态处理能力，MiMo-V2-TTS实现AI语音化。该系列标志着AI从对话向任务执行的进化，助力‘人车家全生态’整合。

多模态模型混合注意力架构文本转语音大语言模型 API接口

多模态语音AI模型探索：Seedance 2.0能否整合TTS、STS与声音分离？

原文

社区Reddit r/LocalLLaMA2026/02/23 23:315420

本文探讨了AI语音处理领域一个关键问题：是否存在能同时执行文本转语音（TTS）、语音转文本（STS）及声音分离的集成模型。文章提及Seedance 2.0可能具备部分此类能力，支持文本/音频输入进行语音合成（说话、唱歌），并可训练自定义声音。尽管其具体实现为闭源，但该模型的多功能集成潜力引发了对AI语音模型未来发展方向的讨论，对开发者和研究人员具有参考价值。

文本转语音语音转文本声音分离多模态AI Seedance

离线 TTS 推荐：为 KoboldCPP 生成多角色配音的实用方案

原文

社区Reddit r/LocalLLaMA2026/02/22 16:582440

作者在使用 KoboldCPP 创作剧情时，需要离线、免订阅的 TTS 工具为不同角色配音，并希望能导出 MP3。EaseText 体验不佳，声音生硬。文章请求社区推荐满足这些需求的本地 TTS 软件或开源项目，并提供相应的获取方式。

文本转语音离线功能多角色配音音频导出开源项目

Apple Silicon 本地化 AI 代理：Parakeet STT 与 Kokoro TTS 实现低延迟语音交互

原文

社区Reddit r/LocalLLaMA2026/02/11 19:5650

本文介绍了一种在 Apple Silicon 设备上实现 AI 代理完全本地化语音交互的方案。通过集成 Parakeet STT 和 Kokoro TTS，实现了低延迟的语音识别和合成，消除了对云服务的依赖。这种方式极大地提升了 AI 代理的使用便捷性，使用户可以随时随地通过语音进行交互。文章还提及了集成 3D 虚拟化身以增强交互的自然感，并邀请社区分享类…

AI代理本地大模型语音转文本文本转语音 Apple Silicon

构建 WaveNet：深度学习语音合成模型的实现与解析

原文

媒体Andrej Karpathy (YouTube)2022/11/21 08:324830

WaveNet 是一种基于深度学习的语音合成模型，通过膨胀卷积捕捉语音信号的长距离依赖，生成高质量自然语音。文章详细解析其架构、训练技巧及应用潜力，适合希望深入理解语音生成技术的开发者。

WaveNet 文本转语音深度学习卷积神经网络音频合成