实时视频翻译器：翻译时克隆你的声音

该项目构建了一个实时视频翻译器，能够在视频通话中实时将一种语言（例如西班牙语）翻译成另一种语言（例如英语），并以说话者本人的声音播放。这意味着，你讲西班牙语，你的朋友会听到你的声音说英语，所有这些都在视频通话中实时发生。

技术栈包括：WebRTC、Google Speech-to-Text、Gemini AI、Qwen3-TTS、Redis Pub/Sub 和 Lingodotdev i18n。

端到端延迟约为 545 毫秒，几乎察觉不到。

作者构建此项目的初衷是为了解决国际通话中因语言障碍而产生的尴尬。

该项目的亮点在于其完全事件驱动的架构，利用 Redis Pub/Sub 实现。每个组件（转录、翻译、语音合成）独立运行，带来了多项优势：

GitHub 地址：https://github.com/HelloSniperMonkey/webrtc-translator

完整文章：https://medium.com/@soumyajyotimohanta/break-the-language-barrier-real-time-video-translation-with-lingo-dev-i18n-2a602fe04d3a

项目状态：开源，采用 MIT 许可证。欢迎社区贡献（PRs）。

作者正在寻求：

未来路线图包括：

该项目耗时约 3 周的晚上和周末完成。作者乐意回答有关实现的问题。

摘要