大型音频语言模型仍在“转录”而非真正“倾听”——现状与挑战原文媒体Lobsters AI2026/02/25 22:265640大型音频语言模型(LALM)目前主要聚焦于语音转文字,虽在转录准确率上取得突破,却缺乏对语义、情感和上下文的深度理解。文章指出模型在倾听能力上的局限,并提出跨模态预训练和层次化记忆两大技术路线作为突破口,呼吁从单纯转录向真正的听懂与交互转变。音频语言模型语音识别多模态模型语义理解长上下文处理