Qwen3.5-Omni实测：215项SOTA，全模态交互与实时编程能力

量子位2026/03/31 16:22机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

7/10

摘要

Qwen3.5-Omni是阿里推出的全模态AI模型，具备215项SOTA成绩，支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度，适用于视频会议、论文解读和网页设计等场景。

正文

Qwen3.5-Omni是阿里推出的新一代多模态AI模型，具备全模态原生理解能力，可处理文本、图片、音频及音视频输入，并生成带时间戳的音视频脚本。该模型提供Plus、Flash、Light三种尺寸，支持256K上下文和113种语言，能处理10小时音频或1小时视频。在benchmark测试中，Qwen3.5-Omni斩获215项SOTA，与Gemini 3.1-Pro表现相当。其核心亮点包括实时视频会议中的vibe coding能力、语义打断、音色克隆和语音控制等交互功能，以及基于Thinker-Talker架构和Hybrid-Attention 技术的高效处理能力。模型通过ARIA技术实现语音输出的稳定性和自然度提升，支持用户在视频通话中实时分析论文、生成代码等任务。

Qwen3.5-Omni实测：215项SOTA，全模态交互与实时编程能力

内容评分

摘要

正文

标签