美团LongCat推出DiNA架构，实现图像语音统一Token建模

量子位2026/04/03 14:24机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

7/10

摘要

美团LongCat推出DiNA架构，将图像、语音统一转换为离散Token，实现多模态统一建模。通过SAE和dNaViT处理视觉，Whisper与RVQ处理语音，模型在多个任务中表现优异，且已开源，为AI多模态研究提供了新方向。

正文

美团LongCat团队推出了一种全新的多模态建模架构DiNA（Discrete Native Autoregressive），将图像、语音等非文本模态统一转换为离散，与文本共用一套自回归逻辑进行建模。该架构通过SAE（语义对齐编码器）和dNaViT（自研视觉分词器）实现视觉离散化，同时结合RVQ（残差向量量化）进行逐级压缩和还原。语音部分则采用Whisper编码器提取特征，再通过RVQ切分，最后由双轨解码器还原。DiNA架构的优势在于统一处理多模态数据，无需额外对齐或翻译，从而提升模型训练稳定性与部署效率。实验表明，LongCat-Next在视觉理解、图像生成、语音处理等任务中表现优异，甚至超越了专用模型。此外，该模型已开源，为开发者和研究者提供了可复现的多模态统一建模方案。

美团LongCat推出DiNA架构，实现图像语音统一Token建模

内容评分

摘要

正文

标签