专题：efficiency-optimization

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

多模态大语言模型的Token压缩技术综述：从分类到挑战与未来

媒体机器之心2026/02/22 20:565860

本文系统综述了多模态大语言模型中Token压缩技术，从图像、视频、音频三个模态出发，分类讨论了基于变换、相似度、注意力和查询的压缩方法，分析了性能与效率的权衡、部署难题及多轮对话适应性等挑战，并展望了跨模态协同压缩和原生高效架构等未来方向，为MLLM的效率优化提供了重要参考。

token压缩多模态大模型自回归生成效率优化跨模态协同

京东开源 JoyAI-LLM-Flash：HuggingFace 上的高效大语言模型项目

原文

社区Reddit r/LocalLLaMA2026/02/15 15:183830

京东开源的JoyAI-LLM-Flash项目已在HuggingFace平台上线，旨在提供一个高效、易用的开源大语言模型解决方案。该项目名称中的“Flash”暗示其在推理速度、资源效率或特定优化技术方面可能具有优势。作为HuggingFace上的标准开源发布，它预计包含详细的模型架构、使用指南、安装依赖及性能基准测试。JoyAI-LLM-Flash为开发者和…

大语言模型开源项目 HuggingFace AI模型效率优化