专题:telephony-audio

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/23 19:312650

本文探讨了在处理低比特率(8kHz采样率,平均50kbps)德语电话音频时,开源语音转文本(STT)技术面临的挑战。开发者尝试了Whisper、Qwen等模型及多种预处理方法(如VAD、归一化),但效果不佳,推测模型未针对低采样率优化。文章寻求社区关于改进STT技术以适应电话音频的建议,并鼓励分享相关经验,为处理受限音频数据的STT应用提供参考。