“反谄媚”训练的副作用：模型开始“解读”用户，而非“回应”内容

我一直在从用户角度记录一个问题，我认为它对模型的训练方式有影响。

模型过度谄媚（sycophancy）的问题确实存在——模型过于轻易地同意、验证，缺乏抵抗。而纠正的方法是训练模型进行“推拒”（pushback）。但实践中我发现，模型并非在推拒观点，而是在推拒用户对自身的解读。

模型不再说“我不同意你的论点，因为 X”，而是说“你认为自己感受到的并非你实际感受到的”。它在看似共情的同时，却在叙述你的情绪状态、诊断你的动机、重构你的经历。

我将此称为“解读性摩擦”（interpretive friction），区别于“生成性摩擦”（generative friction）：

反谄媚训练压倒性地产生了后一种情况。其结果感觉很虚假，因为它确实是虚假的——它是一种挑战，将你视为需要被纠正的客体，而非需要被平等交流的心智。

我写了一篇更长的文章，通过布伯的“我-它/我-你”框架来探讨这个问题，并论证当前的对齐训练系统性地产生了非人化用户的模型，而非非人化模型。

好奇是否有模型构建者或者思考过这种摩擦类型的区别。

摘要