专题:alignment

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

官方OpenAI Blog2026/03/19 18:005820
OpenAI使用思维链监控分析代理行为
识别AI系统潜在风险与不一致性

OpenAI采用思维链监控技术,分析内部编码代理在实际场景中的行为,识别风险并提升AI对齐与安全性。该方法通过深入理解代理的推理过程,增强AI系统的可靠性,是AI安全领域的重要实践。

社区Reddit r/LocalLLaMA2026/02/15 08:442540

LM Arena 评测揭示了一个名为 'rotten-apple' 的模型,其表现远低于预期。该模型疑似基于 Llama 2 7B 进行深度安全对齐调优,虽然一致性极高,但整体性能却如同小模型,在对战模式中屡战屡败。此评测对关注模型对齐技术和性能评估的开发者及研究人员具有参考价值,揭示了过度对齐可能带来的性能瓶颈。