专题:moe_routing

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体量子位2026/04/03 14:247920
图像语音统一转为Token建模
DiNA架构实现多模态统一处理

美团LongCat推出DiNA架构,将图像、语音统一转换为离散Token,实现多模态统一建模。通过SAE和dNaViT处理视觉,Whisper与RVQ处理语音,模型在多个任务中表现优异,且已开源,为AI多模态研究提供了新方向。