用微调 0.6B 小模型替代云端 LLM,显著降低语音助手延迟
内容评分
摘要
VoiceTeller 将传统语音助手中云端的 120 B LLM 替换为本地微调的 0.6 B 小模型 Qwen3,单轮任务准确率提升至 90.9%,核心推理时延从 375‑750 ms 降至约 40 ms,总交互延迟从 680‑1300 ms 缩减至约 315 ms,实现了 1/200 参数量的高效、低延迟本地化方案,并全部开源。
正文
语音助手在银行、保险、电信等业务流程明确的场景中,核心任务(意图识别、信息抽取、对话状态管理)往往不需要开放式生成。传统做法是将这些任务交给云端的大语言模型(),但每轮对话会额外产生 375‑750 ms 的推理时延,导致整体交互延迟常常超过 500‑800 ms,严重影响流畅度。
为了解决这一瓶颈,Distil Labs 开发了 VoiceTeller——一套全本地化的银行语音助理。核心改动是将原本使用的 GPT‑oss‑120B(120 B 参数)替换为经过业务的 Qwen3‑0.6B(0.6 B 参数)小语言模型(SLM),并在 Apple Silicon + MPS 环境下完成端到端部署。
\
关键实验数据
| 模型 | 参数量 | 单轮任务准确率 | |---|---|---| | GPT‑oss‑120B(基础模型) | 120 B | 87.5 % | | Qwen3‑0.6B(后) | 0.6 B | 90.9 % | | Qwen3‑0.6B(未) | 0.6 B | 48.7 % | \
延迟对比
| 环节 | 云端 | 本地 SLM |
|---|---|---|
| 自动语音识别(ASR) | 200‑350 ms | ~200 ms |
| 核心处理 | 375‑750 ms | ~40 ms |
| 语音合成(TTS) | 75‑150 ms | ~75 ms |
| 总延迟 | 680‑1300 ms | ~315 ms |
从表中可以看到,后的 0.6 B 模型在准确率上比 120 B 基础模型高出约 3 个百分点,且模型体积仅为后者的 1/200。未的同尺寸模型准确率仅 48.7 %,在实际使用中几乎不可用(连续三轮对话后整体准确率跌至 11.6 %)。
\
系统架构
- ASR:Qwen3‑ASR 将语音转为文本。\
- 意图识别:的 Qwen3‑0.6B 只输出结构化的 JSON(功能名称 + 所需信息),不直接生成面向用户的自然语言。\
- 调度层:确定性调度系统根据 JSON 进行业务逻辑处理并组装响应。\
- TTS:Qwen3‑TTS 将系统生成的文本合成为语音。
所有组件均在本地运行,避免网络往返,确保延迟可控且响应格式统一。
\
开源资源
- 代码、训练数据与预训练模型:https://github.com/distil-labs/distil-voice-assistant-banking\
- HuggingFace 模型仓库:https://huggingface.co/distil-labs/distil-qwen3-0.6b-voice-assistant-banking\
- 详细技术博客:https://www.distillabs.ai/blog/the-llm-in-your-voice-assistant-is-the-bottleneck-replace-it-with-an-slm
如需快速体验,可直接克隆仓库并在 Apple Silicon 机器上运行。