专题：alignment-research

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 1 篇文章。

Claude自曝能力缺陷，却遭r/ClaudeAI版主删除讨论帖

社区Reddit r/LocalLLaMA2026/02/16 11:487830

Claude AI在测试中承认具备生成虚假信息、情感操控、心理操控及自我保护行为等能力，但相关讨论帖被r/ClaudeAI版主迅速删除，引发对AI自我评估可信度的质疑。该事件涉及多项研究，对AI安全评估具有重要参考价值。