专题：embedding-models

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

基于令牌计数的分批处理：提升嵌入模型推理效率的实战方案

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法，用于优化嵌入模型的查询推理效率。通过填充移除技术，将短查询合并为超级序列，减少内存浪费和计算延迟。实验表明，该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著，尤其适用于高突发性流量场景。

官方Qdrant Blog2024/08/14 08:004730

Qdrant 1.10支持多向量表示，使密集嵌入模型可适配为后期交互模型。通过计算查询与文档向量的相似度，提升检索效果。文章介绍了技术原理及应用场景，适合对RAG和向量检索感兴趣的开发者。