专题：low-latency

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

Meta推出自适应排名模型：优化LLM广告推理效率

官方Engineering at Meta2026/04/01 00:006730

• 动态调整模型复杂度

• 优化多GPU基础设施

Meta开发的自适应排名模型通过动态调整模型复杂度，解决LLM级广告推荐系统的推理三难问题。该模型采用请求中心架构、硬件协同设计和多卡基础设施优化，实现亚秒级延迟与高参数规模。在Instagram部署后，广告转化率提升3%，点击率增长5%，为大规模推荐系统提供高效解决方案。

自适应排名 LLM扩展硬件感知设计多GPU架构推理效率

用微调 0.6B 小模型替代云端 LLM，显著降低语音助手延迟

原文

社区Reddit r/LocalLLaMA2026/02/20 22:375830

VoiceTeller 将传统语音助手中云端的 120 B LLM 替换为本地微调的 0.6 B 小模型 Qwen3，单轮任务准确率提升至 90.9%，核心推理时延从 375‑750 ms 降至约 40 ms，总交互延迟从 680‑1300 ms 缩减至约 315 ms，实现了 1/200 参数量的高效、低延迟本地化方案，并全部开源。

小语言模型模型微调语音助手低延迟处理模型压缩