美团LongCat推出DiNA架构,实现图像语音统一Token建模
量子位2026/04/03 14:24机翻/自动摘要/自动分类
2 阅读
内容评分
技术含量
9/10
营销水分
7/10
摘要
美团LongCat推出DiNA架构,将图像、语音统一转换为离散Token,实现多模态统一建模。通过SAE和dNaViT处理视觉,Whisper与RVQ处理语音,模型在多个任务中表现优异,且已开源,为AI多模态研究提供了新方向。
正文
美团LongCat团队推出了一种全新的多模态建模架构DiNA(Discrete Native Autoregressive),将图像、语音等非文本模态统一转换为离散,与文本共用一套自回归逻辑进行建模。该架构通过SAE(语义对齐编码器)和dNaViT(自研视觉分词器)实现视觉离散化,同时结合RVQ(残差向量量化)进行逐级压缩和还原。语音部分则采用Whisper编码器提取特征,再通过RVQ切分,最后由双轨解码器还原。DiNA架构的优势在于统一处理多模态数据,无需额外对齐或翻译,从而提升模型训练稳定性与部署效率。实验表明,LongCat-Next在视觉理解、图像生成、语音处理等任务中表现优异,甚至超越了专用模型。此外,该模型已开源,为开发者和研究者提供了可复现的多模态统一建模方案。