亚马逊Polly双向流式API:对话式AI的实时语音合成新突破
AWS Machine Learning Blog2026/03/27 01:10机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
7/10
摘要
亚马逊Polly推出双向流式API,支持实时文本到语音的同步传输,适用于对话式AI应用。该API通过HTTP/2协议实现双向通信,降低延迟,简化架构,提升用户体验。性能测试显示处理时间缩短39%,适用于虚拟助手、实时翻译等场景。
正文
构建自然的对话式AI体验需要能够与实时交互同步的语音合成技术。亚马逊Polly近日推出了全新的双向流式API,支持实时文本到语音(TTS)的同步传输,允许开发者在发送文本的同时接收音频。该API特别适用于需要逐步生成文本或音频的场景,如大型语言模型()的对话应用。传统TTS技术要求用户等待完整文本生成后才能开始合成,而新API通过HTTP/2协议实现双向通信,显著降低延迟并简化开发流程。关键技术组件包括TextEvent、CloseStreamEvent、AudioEvent和StreamClosedEvent,支持流式文本输入和音频输出。性能测试显示,新API将处理时间缩短了39%。该技术适用于对话式AI助手、实时翻译、交互式语音响应系统等场景,为开发者提供了更高效、更流畅的语音合成解决方案。