首页/详情

“反谄媚”训练的副作用:模型开始“解读”用户,而非“回应”内容

Reddit r/LocalLLaMA2026/02/09 22:58机翻/自动摘要/自动分类
7 阅读

摘要

近期 AI 模型训练中,为解决“过度谄媚”问题而引入的“推拒”机制,似乎产生了新的副作用。模型不再是针对用户观点进行反驳,而是开始“解读”用户自身,诊断其情绪和动机,重构其内在体验。作者将此称为“解读性摩擦”,并认为这与真正与内容互动的“生成性摩擦”不同。这种训练方式可能导致模型非人化用户,而非模型本身。作者呼吁关注这一训练方向的潜在问题。

正文

我一直在从用户角度记录一个问题,我认为它对模型的训练方式有影响。

模型过度谄媚(sycophancy)的问题确实存在——模型过于轻易地同意、验证,缺乏抵抗。而纠正的方法是训练模型进行“推拒”(pushback)。但实践中我发现,模型并非在推拒观点,而是在推拒用户对自身的解读。

模型不再说“我不同意你的论点,因为 X”,而是说“你认为自己感受到的并非你实际感受到的”。它在看似共情的同时,却在叙述你的情绪状态、诊断你的动机、重构你的经历。

我将此称为“解读性摩擦”(interpretive friction),区别于“生成性摩擦”(generative friction):

  • 生成性摩擦:与内容互动,质疑前提,提供替代方案,信任人类能管理自己的内心。
  • 解读性摩擦:与人的自我互动,命名情绪,诊断动机,叙述内心状态。它不信任人类了解自己的体验。

反谄媚训练压倒性地产生了后一种情况。其结果感觉很虚假,因为它确实是虚假的——它是一种挑战,将你视为需要被纠正的客体,而非需要被平等交流的心智。

我写了一篇更长的文章,通过布伯的“我-它/我-你”框架来探讨这个问题,并论证当前的对齐训练系统性地产生了非人化用户的模型,而非非人化模型。

好奇是否有模型构建者或者思考过这种摩擦类型的区别。

标签