首页/详情

Qwen3.5-Omni实测:215项SOTA,全模态交互与实时编程能力

量子位2026/03/31 16:22机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
9/10
营销水分
7/10

摘要

Qwen3.5-Omni是阿里推出的全模态AI模型,具备215项SOTA成绩,支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度,适用于视频会议、论文解读和网页设计等场景。

正文

Qwen3.5-Omni是阿里推出的新一代多模态AI模型,具备全模态原生理解能力,可处理文本、图片、音频及音视频输入,并生成带时间戳的音视频脚本。该模型提供Plus、Flash、Light三种尺寸,支持256K上下文和113种语言,能处理10小时音频或1小时视频。在benchmark测试中,Qwen3.5-Omni斩获215项SOTA,与Gemini 3.1-Pro表现相当。其核心亮点包括实时视频会议中的vibe coding能力、语义打断、音色克隆和语音控制等交互功能,以及基于Thinker-Talker架构和Hybrid-Attention 技术的高效处理能力。模型通过ARIA技术实现语音输出的稳定性和自然度提升,支持用户在视频通话中实时分析论文、生成代码等任务。

标签