首页/详情

用微调 0.6B 小模型替代云端 LLM,显著降低语音助手延迟

Reddit r/LocalLLaMA2026/02/20 22:37机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

VoiceTeller 将传统语音助手中云端的 120 B LLM 替换为本地微调的 0.6 B 小模型 Qwen3,单轮任务准确率提升至 90.9%,核心推理时延从 375‑750 ms 降至约 40 ms,总交互延迟从 680‑1300 ms 缩减至约 315 ms,实现了 1/200 参数量的高效、低延迟本地化方案,并全部开源。

正文

语音助手在银行、保险、电信等业务流程明确的场景中,核心任务(意图识别、信息抽取、对话状态管理)往往不需要开放式生成。传统做法是将这些任务交给云端的大语言模型(),但每轮对话会额外产生 375‑750 ms 的推理时延,导致整体交互延迟常常超过 500‑800 ms,严重影响流畅度。

为了解决这一瓶颈,Distil Labs 开发了 VoiceTeller——一套全本地化的银行语音助理。核心改动是将原本使用的 GPT‑oss‑120B(120 B 参数)替换为经过业务的 Qwen3‑0.6B(0.6 B 参数)小语言模型(SLM),并在 Apple Silicon + MPS 环境下完成端到端部署。
\

关键实验数据

| 模型 | 参数量 | 单轮任务准确率 | |---|---|---| | GPT‑oss‑120B(基础模型) | 120 B | 87.5 % | | Qwen3‑0.6B(后) | 0.6 B | 90.9 % | | Qwen3‑0.6B(未) | 0.6 B | 48.7 % | \

延迟对比

| 环节 | 云端 | 本地 SLM | |---|---|---| | 自动语音识别(ASR) | 200‑350 ms | ~200 ms | | 核心处理 | 375‑750 ms | ~40 ms | | 语音合成(TTS) | 75‑150 ms | ~75 ms | | 总延迟 | 680‑1300 ms | ~315 ms |
从表中可以看到,后的 0.6 B 模型在准确率上比 120 B 基础模型高出约 3 个百分点,且模型体积仅为后者的 1/200。未的同尺寸模型准确率仅 48.7 %,在实际使用中几乎不可用(连续三轮对话后整体准确率跌至 11.6 %)。
\

系统架构

  1. ASR:Qwen3‑ASR 将语音转为文本。\
  2. 意图识别的 Qwen3‑0.6B 只输出结构化的 JSON(功能名称 + 所需信息),不直接生成面向用户的自然语言。\
  3. 调度层:确定性调度系统根据 JSON 进行业务逻辑处理并组装响应。\
  4. TTS:Qwen3‑TTS 将系统生成的文本合成为语音。
    所有组件均在本地运行,避免网络往返,确保延迟可控且响应格式统一。
    \

开源资源

标签