用微调 0.6B 小模型替代云端 LLM,显著降低语音助手延迟原文社区Reddit r/LocalLLaMA2026/02/20 22:375830VoiceTeller 将传统语音助手中云端的 120 B LLM 替换为本地微调的 0.6 B 小模型 Qwen3,单轮任务准确率提升至 90.9%,核心推理时延从 375‑750 ms 降至约 40 ms,总交互延迟从 680‑1300 ms 缩减至约 315 ms,实现了 1/200 参数量的高效、低延迟本地化方案,并全部开源。小语言模型模型微调语音助手低延迟处理模型压缩