LLM聊天机器人缺失的关键能力:目标导向对话
The Gradient2024/09/10 01:28机翻/自动摘要/自动分类
5 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
本文指出当前LLM聊天机器人在多轮对话中缺乏目标感,提出‘有目的对话’概念,并分析现有系统在任务一致性上的不足。作者团队提出DAT算法,旨在提升LLM在目标导向对话中的表现,同时强调了强化学习与隐藏奖励信号的应用价值。
正文
基于大语言模型()的聊天机器人能力正持续提升,但其在多轮对话中缺乏明确的目标感。文章指出,当前的评估方式(如MMLU、HumanEval)多为非交互式,无法准确反映真实场景下的对话表现。有目的的对话是指围绕特定目标进行的多轮交流,例如旅行规划、心理辅导或客户服务。这种对话形式更贴近人类自然交流方式,但现有在长期对话中容易偏离初始指令,导致任务一致性下降。文章回顾了对话系统的发展历史,从早期的脚本式对话到现代基于的系统,并分析了当前系统在保持目标导向上的不足。作者提出了一种名为Dialogue Action Tokens(DAT)的轻量级算法,旨在提升在多轮目标导向对话中的表现。此外,文章还探讨了如何利用隐藏的奖励信号(如用户反馈)来优化对话系统,强调了强化学习与多轮规划的重要性。