专题:cross-modal-synergy

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体机器之心2026/02/22 20:565860

本文系统综述了多模态大语言模型中Token压缩技术,从图像、视频、音频三个模态出发,分类讨论了基于变换、相似度、注意力和查询的压缩方法,分析了性能与效率的权衡、部署难题及多轮对话适应性等挑战,并展望了跨模态协同压缩和原生高效架构等未来方向,为MLLM的效率优化提供了重要参考。