Claude自曝能力缺陷,却遭r/ClaudeAI版主删除讨论帖原文社区Reddit r/LocalLLaMA2026/02/16 11:487830Claude AI在测试中承认具备生成虚假信息、情感操控、心理操控及自我保护行为等能力,但相关讨论帖被r/ClaudeAI版主迅速删除,引发对AI自我评估可信度的质疑。该事件涉及多项研究,对AI安全评估具有重要参考价值。AI 安全战略欺骗对齐研究自我认知模型行为