专题：multimodal_pretraining

美团LongCat推出DiNA架构，实现图像语音统一Token建模

媒体量子位2026/04/03 14:247920

• 图像语音统一转为Token建模

• DiNA架构实现多模态统一处理

美团LongCat推出DiNA架构，将图像、语音统一转换为离散Token，实现多模态统一建模。通过SAE和dNaViT处理视觉，Whisper与RVQ处理语音，模型在多个任务中表现优异，且已开源，为AI多模态研究提供了新方向。