社区Reddit r/LocalLLaMA2026/02/08 19:3030
一个开源的实时视频翻译器,能在视频通话中实时克隆用户声音进行翻译,实现跨语言交流。该项目融合了 WebRTC、Google STT、Gemini AI 和 Qwen3-TTS 等技术,采用事件驱动架构,端到端延迟仅约 545 毫秒。系统支持无限扩展,未来计划包括群组通话、语音情感迁移和移动应用。项目已在 GitHub 开源,欢迎社区贡献。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 1 篇文章。
一个开源的实时视频翻译器,能在视频通话中实时克隆用户声音进行翻译,实现跨语言交流。该项目融合了 WebRTC、Google STT、Gemini AI 和 Qwen3-TTS 等技术,采用事件驱动架构,端到端延迟仅约 545 毫秒。系统支持无限扩展,未来计划包括群组通话、语音情感迁移和移动应用。项目已在 GitHub 开源,欢迎社区贡献。