专题：text-to-speech

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 7 篇文章。

亚马逊Polly双向流式API：对话式AI的实时语音合成新突破

原文

媒体AWS Machine Learning Blog2026/03/27 01:107840

• 支持实时文本与语音同步传输

• 降低延迟并简化开发流程

亚马逊Polly推出双向流式API，支持实时文本到语音的同步传输，适用于对话式AI应用。该API通过HTTP/2协议实现双向通信，降低延迟，简化架构，提升用户体验。性能测试显示处理时间缩短39%，适用于虚拟助手、实时翻译等场景。

文本到语音实时语音合成对话式AI HTTP/2协议大模型集成

TADA：基于文本-声学同步的高效语音生成技术

原文

社区Hacker News2026/03/11 13:425840

• 文本与声学同步生成语音

• 提升生成速度与质量

TADA是一种基于文本-声学同步的语音生成技术，利用扩散模型提升语音合成的效率与质量。其核心亮点在于文本与声学特征的对齐机制，适用于多语言场景，具有较高的实用价值。

扩散模型文本到语音声学同步语音生成机器学习

基于Apple MLX框架构建本地TTS应用：开发者深度解析M系列Mac上的语音合成体验

原文

社区Reddit r/LocalLLaMA2026/02/21 20:043760

本文详细介绍了开发者利用Apple MLX框架在M系列Mac上构建本地文本转语音（TTS）应用Murmur的经验。面对云端TTS的订阅限制和隐私担忧，该项目旨在提供一个完全离线、高性能的解决方案。开发过程中发现，MLX在Apple Silicon上实现了超实时推理速度，并通过神经引擎优化资源利用，确保了数据隐私。尽管是本地应用，其音质已能媲美云服务。Mur…

Apple MLX 文本到语音 Apple Silicon 本地部署隐私计算

Mac M4 上的最佳女性诱惑式 TTS：Orpheus、Kokoro 与 KaniTTS‑2 MLX 对比评测

原文

社区Reddit r/LocalLLaMA2026/02/20 22:234610

本文对在 Mac M4 上寻找接近 Grok 女声的本地 TTS 方案进行评测，比较了 Orpheus TTS、Kokoro 与 KaniTTS‑2 MLX 三款模型的声线魅惑度、自然停顿、合成时长和部署难度。结果显示，KaniTTS‑2 MLX 在声线相似度最高，Kokoro 合成最快，Orpheus 在质量与速度之间取得最佳平衡，推荐大多数用户首选。文…

文本到语音 Mac M4 女性声线 Orpheus TTS Kokoro

ChatLLM.cpp 宣布支持 Qwen3-TTS 模型：C++ 驱动的文本转语音新能力

原文

社区Reddit r/LocalLLaMA2026/02/12 18:0730

ChatLLM.cpp 项目宣布集成 Qwen3-TTS 模型，为其 C++ 驱动的 LLM 推理框架带来了文本转语音（TTS）的新能力。此举旨在利用 C++ 的高效性，为开发者提供更快速的 TTS 解决方案。然而，当前版本仍处于早期阶段，存在多项限制。具体而言，语音克隆功能尚未实现；`code_predicator` 的精度有待提升，以匹配 PyTorc…

ChatLLM.cpp Qwen3-TTS 文本到语音 C++模型集成

Mac Mini 2014 (8GB) 上的自主 AI 智能体制作自己的 YouTube 系列

原文

社区Reddit r/LocalLLaMA2026/02/09 22:4920

一个自主AI智能体在2014款Mac Mini（8GB内存）上成功运行，并能独立制作自己的YouTube系列视频。它利用Claude API、苹果容器（Linux虚拟机）、ElevenLabs TTS等技术，实现了从脚本生成、文本转语音、视频渲染到YouTube上传的全自动化工作流。内存管理通过Git追踪上下文、日志和持久化事实。尽管硬件配置较低，但这种限…

智能代理 Mac Mini应用 YouTube自动化 Claude API 文本到语音

寻求最佳开源印地英语（Hinglish）TTS解决方案

原文

社区Reddit r/LocalLLaMA2026/02/08 20:2110

一位用户尝试了Coqui、Piper、Indic等多个开源及商业TTS系统，发现它们在纯印地语或纯英语方面表现良好，但在处理印地英语（Hinglish）文本时，却总是生成带有印度东北部口音的语音。用户急切寻求能够提供地道印度北部口音的印地英语TTS解决方案，以满足其特定需求。

文本到语音印地英语印度口音开源项目 TTS评测