专题:text-to-speech

按该标签聚合的大模型资讯列表(自动分类与标签提取)。7 篇文章。

媒体AWS Machine Learning Blog2026/03/27 01:107840
支持实时文本与语音同步传输
降低延迟并简化开发流程

亚马逊Polly推出双向流式API,支持实时文本到语音的同步传输,适用于对话式AI应用。该API通过HTTP/2协议实现双向通信,降低延迟,简化架构,提升用户体验。性能测试显示处理时间缩短39%,适用于虚拟助手、实时翻译等场景。

社区Reddit r/LocalLLaMA2026/02/21 20:043760

本文详细介绍了开发者利用Apple MLX框架在M系列Mac上构建本地文本转语音(TTS)应用Murmur的经验。面对云端TTS的订阅限制和隐私担忧,该项目旨在提供一个完全离线、高性能的解决方案。开发过程中发现,MLX在Apple Silicon上实现了超实时推理速度,并通过神经引擎优化资源利用,确保了数据隐私。尽管是本地应用,其音质已能媲美云服务。Mur…

社区Reddit r/LocalLLaMA2026/02/20 22:234610

本文对在 Mac M4 上寻找接近 Grok 女声的本地 TTS 方案进行评测,比较了 Orpheus TTS、Kokoro 与 KaniTTS‑2 MLX 三款模型的声线魅惑度、自然停顿、合成时长和部署难度。结果显示,KaniTTS‑2 MLX 在声线相似度最高,Kokoro 合成最快,Orpheus 在质量与速度之间取得最佳平衡,推荐大多数用户首选。文…

社区Reddit r/LocalLLaMA2026/02/12 18:0730

ChatLLM.cpp 项目宣布集成 Qwen3-TTS 模型,为其 C++ 驱动的 LLM 推理框架带来了文本转语音(TTS)的新能力。此举旨在利用 C++ 的高效性,为开发者提供更快速的 TTS 解决方案。然而,当前版本仍处于早期阶段,存在多项限制。具体而言,语音克隆功能尚未实现;`code_predicator` 的精度有待提升,以匹配 PyTorc…

社区Reddit r/LocalLLaMA2026/02/09 22:4920

一个自主AI智能体在2014款Mac Mini(8GB内存)上成功运行,并能独立制作自己的YouTube系列视频。它利用Claude API、苹果容器(Linux虚拟机)、ElevenLabs TTS等技术,实现了从脚本生成、文本转语音、视频渲染到YouTube上传的全自动化工作流。内存管理通过Git追踪上下文、日志和持久化事实。尽管硬件配置较低,但这种限…

社区Reddit r/LocalLLaMA2026/02/08 20:2110

一位用户尝试了Coqui、Piper、Indic等多个开源及商业TTS系统,发现它们在纯印地语或纯英语方面表现良好,但在处理印地英语(Hinglish)文本时,却总是生成带有印度东北部口音的语音。用户急切寻求能够提供地道印度北部口音的印地英语TTS解决方案,以满足其特定需求。