首页/详情

实时视频翻译器:翻译时克隆你的声音

Reddit r/LocalLLaMA2026/02/08 19:30机翻/自动摘要/自动分类
3 阅读

摘要

一个开源的实时视频翻译器,能在视频通话中实时克隆用户声音进行翻译,实现跨语言交流。该项目融合了 WebRTC、Google STT、Gemini AI 和 Qwen3-TTS 等技术,采用事件驱动架构,端到端延迟仅约 545 毫秒。系统支持无限扩展,未来计划包括群组通话、语音情感迁移和移动应用。项目已在 GitHub 开源,欢迎社区贡献。

正文

该项目构建了一个实时视频翻译器,能够在视频通话中实时将一种语言(例如西班牙语)翻译成另一种语言(例如英语),并以说话者本人的声音播放。这意味着,你讲西班牙语,你的朋友会听到你的声音说英语,所有这些都在视频通话中实时发生。

技术栈包括:WebRTC、Google Speech-to-Text、Gemini AI、Qwen3-TTS、Redis Pub/Sub 和 Lingodotdev i18n。

端到端延迟约为 545 毫秒,几乎察觉不到。

作者构建此项目的初衷是为了解决国际通话中因语言障碍而产生的尴尬。

该项目的亮点在于其完全事件驱动的架构,利用 Redis Pub/Sub 实现。每个组件(转录、翻译、语音合成)独立运行,带来了多项优势:

  • 通过添加工作节点实现无限扩展
  • 单个服务崩溃不会导致整个系统瘫痪
  • 在不破坏现有代码的情况下添加新功能
  • 实时监控每个事件

GitHub 地址:https://github.com/HelloSniperMonkey/webrtc-translator

完整文章:https://medium.com/@soumyajyotimohanta/break-the-language-barrier-real-time-video-translation-with-lingo-dev-i18n-2a602fe04d3a

项目状态:开源,采用 MIT 许可证。欢迎社区贡献(PRs)。

作者正在寻求:

  • 对架构的反馈
  • 其他用例的想法
  • 有兴趣添加功能的贡献者

未来路线图包括:

  • 支持群组视频通话(目前仅支持 1:1)
  • 语音克隆中的情感迁移
  • 更好的语言自动检测
  • 开发移动应用版本

该项目耗时约 3 周的晚上和周末完成。作者乐意回答有关实现的问题。

标签