阿里发布Qwen3.5-Omni，全模态能力超越Gemini-3.1 Pro

量子位2026/03/30 22:21机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

8/10

摘要

阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro，支持113种语言识别和36种语音生成，具备音视频实时交互与Vibe Coding能力，适用于内容创作与管理场景，成本低于竞品。

正文

2026年3月30日，阿里云正式发布新一代全模态Qwen3.5-Omni，该模型在音视频理解、识别、交互等215项任务中取得SOTA表现，超越Gemini-3.1 Pro，成为当前全球最强的全模态之一。Qwen3.5-Omni采用混合注意力架构，支持113种语言及方言的语音识别和36种语言及方言的语音生成，具备强大的实时交互能力，能精准理解用户意图并生成自然语音。此外，该模型还具备音视频Vibe Coding能力，用户通过口述需求即可生成APP、网页、游戏等复杂产品代码。目前，阿里云百炼已推出三种API版本，适用于短视频/直播平台、游戏、自媒体等行业。模型在第三方测试中表现优异，尤其在抗干扰、多语言语音生成等任务中显著优于竞品。

阿里发布Qwen3.5-Omni，全模态能力超越Gemini-3.1 Pro

内容评分

摘要

正文

标签