美团LongCat推出DiNA架构,实现图像语音统一Token建模原文媒体量子位2026/04/03 14:247920• 图像语音统一转为Token建模• DiNA架构实现多模态统一处理美团LongCat推出DiNA架构,将图像、语音统一转换为离散Token,实现多模态统一建模。通过SAE和dNaViT处理视觉,Whisper与RVQ处理语音,模型在多个任务中表现优异,且已开源,为AI多模态研究提供了新方向。离散Token化多模态预训练MoE路由机制对角注意力机制语义对齐