专题:attention-mask

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法,用于优化嵌入模型的查询推理效率。通过填充移除技术,将短查询合并为超级序列,减少内存浪费和计算延迟。实验表明,该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著,尤其适用于高突发性流量场景。