基于令牌计数的分批处理:提升嵌入模型推理效率的实战方案原文官方MongoDB Blog2025/12/18 23:004850本文提出基于令牌计数的分批处理方法,用于优化嵌入模型的查询推理效率。通过填充移除技术,将短查询合并为超级序列,减少内存浪费和计算延迟。实验表明,该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著,尤其适用于高突发性流量场景。基于令牌的批处理嵌入模型GPU加速优化大语言模型推理注意力掩码