首页/详情

阿里发布Qwen3.5-Omni,全模态能力超越Gemini-3.1 Pro

量子位2026/03/30 22:21机翻/自动摘要/自动分类
6 阅读

内容评分

技术含量
9/10
营销水分
8/10

摘要

阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro,支持113种语言识别和36种语音生成,具备音视频实时交互与Vibe Coding能力,适用于内容创作与管理场景,成本低于竞品。

正文

2026年3月30日,阿里云正式发布新一代全模态Qwen3.5-Omni,该模型在音视频理解、识别、交互等215项任务中取得SOTA表现,超越Gemini-3.1 Pro,成为当前全球最强的全模态之一。Qwen3.5-Omni采用混合注意力架构,支持113种语言及方言的语音识别和36种语言及方言的语音生成,具备强大的实时交互能力,能精准理解用户意图并生成自然语音。此外,该模型还具备音视频Vibe Coding能力,用户通过口述需求即可生成APP、网页、游戏等复杂产品代码。目前,阿里云百炼已推出三种API版本,适用于短视频/直播平台、游戏、自媒体等行业。模型在第三方测试中表现优异,尤其在抗干扰、多语言语音生成等任务中显著优于竞品。

标签