用微调 0.6B 小模型替代云端 LLM，显著降低语音助手延迟

语音助手在银行、保险、电信等业务流程明确的场景中，核心任务（意图识别、信息抽取、对话状态管理）往往不需要开放式生成。传统做法是将这些任务交给云端的大语言模型（），但每轮对话会额外产生 375‑750 ms 的推理时延，导致整体交互延迟常常超过 500‑800 ms，严重影响流畅度。

为了解决这一瓶颈，Distil Labs 开发了 VoiceTeller——一套全本地化的银行语音助理。核心改动是将原本使用的 GPT‑oss‑120B（120 B 参数）替换为经过业务的 Qwen3‑0.6B（0.6 B 参数）小语言模型（SLM），并在 Apple Silicon + MPS 环境下完成端到端部署。
\

关键实验数据

| 模型 | 参数量 | 单轮任务准确率 | |---|---|---| | GPT‑oss‑120B（基础模型） | 120 B | 87.5 % | | Qwen3‑0.6B（后） | 0.6 B | 90.9 % | | Qwen3‑0.6B（未） | 0.6 B | 48.7 % | \

延迟对比

| 环节 | 云端 | 本地 SLM | |---|---|---| | 自动语音识别（ASR） | 200‑350 ms | ~200 ms | | 核心处理 | 375‑750 ms | ~40 ms | | 语音合成（TTS） | 75‑150 ms | ~75 ms | | 总延迟 | 680‑1300 ms | ~315 ms |
从表中可以看到，后的 0.6 B 模型在准确率上比 120 B 基础模型高出约 3 个百分点，且模型体积仅为后者的 1/200。未的同尺寸模型准确率仅 48.7 %，在实际使用中几乎不可用（连续三轮对话后整体准确率跌至 11.6 %）。
\

系统架构

ASR：Qwen3‑ASR 将语音转为文本。\
意图识别：的 Qwen3‑0.6B 只输出结构化的 JSON（功能名称 + 所需信息），不直接生成面向用户的自然语言。\
调度层：确定性调度系统根据 JSON 进行业务逻辑处理并组装响应。\
TTS：Qwen3‑TTS 将系统生成的文本合成为语音。
所有组件均在本地运行，避免网络往返，确保延迟可控且响应格式统一。
\

开源资源

代码、训练数据与预训练模型：https://github.com/distil-labs/distil-voice-assistant-banking\
HuggingFace 模型仓库：https://huggingface.co/distil-labs/distil-qwen3-0.6b-voice-assistant-banking\
详细技术博客：https://www.distillabs.ai/blog/the-llm-in-your-voice-assistant-is-the-bottleneck-replace-it-with-an-slm

如需快速体验，可直接克隆仓库并在 Apple Silicon 机器上运行。

用微调 0.6B 小模型替代云端 LLM，显著降低语音助手延迟

内容评分

摘要

正文

关键实验数据

延迟对比

系统架构

开源资源

标签