专题：cross-modal-synergy

多模态大语言模型的Token压缩技术综述：从分类到挑战与未来

媒体机器之心2026/02/22 20:565860

本文系统综述了多模态大语言模型中Token压缩技术，从图像、视频、音频三个模态出发，分类讨论了基于变换、相似度、注意力和查询的压缩方法，分析了性能与效率的权衡、部署难题及多轮对话适应性等挑战，并展望了跨模态协同压缩和原生高效架构等未来方向，为MLLM的效率优化提供了重要参考。