阿里云通义千问Qwen3.5-397B模型实现“发布即多芯”,FlagOS赋能跨芯片适配与零改码部署
内容评分
摘要
阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署,并推出了vLLM多芯片插件,实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具,极大降低了大模型跨芯片落地的门槛,并鼓励开发者参与开源共建。
正文
阿里云于2026年2月16日(农历除夕)发布了旗舰Qwen3.5-397B-A17B。该模型拥有3970亿全量参数和170亿激活参数,是原生Vision-Language ,在通用能力、代码生成、长上下文理解、推理、工具调用及多模态理解等方面实现显著提升,并成为当前开源社区综合能力最强的多模态。
为应对397B 多模态模型在跨芯适配、多机部署和精度对齐方面带来的系统挑战,众智FlagOS社区迅速完成了该模型的全量适配、精度对齐及多芯片迁移,实现了Qwen3.5在沐曦、平头哥真武、英伟达三种芯片上的同步适配上线。
开发者速用指南:Qwen3.5新模型多芯版本一键获取 + 部署
FlagOS通过vLLM多芯片插件(vLLM-plugin-FL)为Qwen3.5提供了统一支持多种AI芯片的适配版本,确保高效推理的同时,实现开箱即用的跨芯片Qwen3.5版本。目前,沐曦、平头哥真武等多种芯片已通过vLLM-plugin-FL实现统一接入,并完成了Qwen3.5 397B 旗舰模型的双机16卡BF16版本推理部署及验证。
开发者可通过官方文档(GitHub: https://github.com/flagos-ai/vllm-plugin-FL/blob/main/README.md,GitCode: https://gitcode.com/flagos-ai/vllm-plugin-FL/blob/main/README.md)进行源码安装部署。此外,用户也可直接从魔搭、HuggingFace等平台拉取FlagRelease组织发布的迁移版Qwen3.5-FlagOS模型文件、代码和镜像,包括沐曦版、平头哥真武版和NVIDIA版,实现无需迁移的开箱即用体验。
开发者极致体验:“发布即多芯” + “零改码”
FlagOS围绕开发者友好设计,解决了落地中的选芯难、适配繁、性能低、精度损四大痛点,实现“一次开发,多芯运行”。
- **零改码适配:**无需修改模型原有接口、vLLM推理引擎逻辑或开发者调用代码,FlagOS通过底层插件与算子替换实现适配,开发者可专注于业务开发。
- **精度零损失:**经ERQA、AIME等权威评测集验证,FlagOS适配后的Qwen3.5模型在视觉语言理解、空间理解、语言理解、复杂推理等核心能力上与CUDA原生版本得分基本一致,适用于金融、教育、政企服务等高精度要求场景。
- **极简部署:**FlagOS将核心算子库、编译器等技术组件内置于模型代码框架,底层优化自动生效。FlagRelease工具直接提供多芯版Qwen3.5-FlagOS模型,实现“开箱即用”。标准化Docker镜像和一键加速命令简化了环境配置、效果对齐和性能优化等问题。
大模型核心基座:FlagOS四大技术支撑,实现Qwen3.5极速跨芯适配
FlagOS的统一多芯片AI系统软件栈从算子层、编译层、框架层到工具层,全链路支撑跨芯适配,将适配周期从数周缩短至数天。
- **统一多芯片接入插件 vLLM-plugin-FL:**基于FlagOS统一多芯片后端开发,兼容vLLM原生接口,支持Qwen3.5全系列模型在华为昇腾、沐曦、平头哥真武、天数智芯、清微智能、英伟达等六家芯片上部署。
- **高性能算子库 FlagGems:**基于Triton语言实现,全量覆盖Qwen3.5系列模型的PyTorch Aten算子,并针对专家调度、Attention计算、RMSNorm等核心模块进行优化,原生支持近20家AI芯片。
- **统一AI编译器FlagTree:**基于Triton深度定制,可将Qwen3.5模型算子编译为十多种不同AI芯片后端可识别的指令,解决编译器生态割裂问题。
- **跨芯迁移发布工具FlagRelease:**已完成Qwen3.5 397B 旗舰模型的多芯片版本适配迁移、评测验证、自动打包与版本发布,覆盖HuggingFace、ModelScope等主流开源社区,是国内唯一的跨芯片迁移适配及版本发布平台。
开源共建:众智FlagOS持续做开发者的“跨芯适配技术后盾”
FlagOS秉持开源开放、众智共建的理念,通过全栈开源的统一系统软件栈,将复杂的硬件适配问题降维。
- **全栈开源无保留:**核心组件均已开源至Github,提供数十款最新基础、十多款AI芯片的适配方案与最佳实践。
- **四大核心技术库:**FlagGems算子库、FlagTree编译器、FlagScale训练推理并行框架、FlagCX通信库。
- **三大开源工具平台:**FlagRelease迁移发版平台、KernelGen算子生成工具、FlagPerf评测工具。
- **全场景使能生态:**vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL等框架增强组件,以及FlagOS-Robo具身智能工具包。
FlagOS社区提供多路径参与共建方式,包括提交Issue反馈、优化建议、补充文档、撰写教程,以及核心代码贡献、模型芯片适配优化等。此外,通过“FlagOS开放计算全球挑战赛”和与清华大学、北京大学、中科院计算所等高校院所的产学研合作,鼓励开发者参与技术创新。