大模型资讯聚合站

专题：transformer-architecture

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

TinyLoRA：以13个参数实现高效推理的新型模型架构

社区Hacker News2026/03/27 20:115620

• 参数高效微调技术

• 13参数实现强推理

TinyLoRA是基于Transformer的轻量化模型架构，仅需13个参数即可实现高效推理。通过结构优化降低计算和存储需求，保持高性能，适用于嵌入式设备等资源受限场景。该技术突破传统参数微调范式，为边缘计算提供新思路，具有实际部署价值。

参数高效微调 Transformer架构低功耗计算边缘AI 模型压缩

KV Cache技术：大型语言模型推理优化的核心机制

媒体InfoQ 中文2026/03/25 03:595840

• KV Cache用于存储注意力键值对

• 提升推理效率并减少内存消耗

KV Cache是LLM推理中的关键缓存机制，用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算，优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略，为开发者和研究人员提供了实用的技术参考。

kv缓存注意力机制优化大模型优化 Transformer架构推理性能