多模态大语言模型的Token压缩技术综述：从分类到挑战与未来

机器之心2026/02/22 20:56机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

5/10

摘要

本文系统综述了多模态大语言模型中Token压缩技术，从图像、视频、音频三个模态出发，分类讨论了基于变换、相似度、注意力和查询的压缩方法，分析了性能与效率的权衡、部署难题及多轮对话适应性等挑战，并展望了跨模态协同压缩和原生高效架构等未来方向，为MLLM的效率优化提供了重要参考。

正文

随着GPT-4o、Gemini 3Pro等多模态大语言模型（MLLM）的快速发展，处理长上下文成为其核心能力之一。然而，高分辨率图像、长视频和音频等多模态数据在数量上远超文本，导致自注意力机制的计算复杂度呈二次增长，严重限制了模型的推理效率。为此，浙江大学、西湖大学等机构的研究者发布了一篇系统性综述，全面梳理了压缩技术的分类体系、方法、挑战与未来方向。该综述从数据模态（图像、视频、音频）和算法机制（基于变换、相似度、注意力、查询）两个维度对现有技术进行了分类，并总结了各类方法的优缺点。此外，文章还指出了当前压缩技术在性能与效率、部署兼容性、多轮对话适应性等方面的挑战，并展望了跨模态协同压缩和原生高效架构等未来方向。

多模态大语言模型的Token压缩技术综述：从分类到挑战与未来

内容评分

摘要

正文

标签