专题:torch-compile

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体Ahead of AI2025/06/17 18:556830
KV缓存提升推理效率
代码实现与优化策略

KV缓存是LLM推理中提升效率的关键技术,通过存储键值向量减少重复计算。文章从概念和代码实现角度解析其原理,并展示了在不同模型和硬件上的性能对比。核心亮点包括代码示例、优化方法和实验结果。