专题：llama-2

LM Arena 评测：'rotten-apple' 模型表现不佳，疑似 Llama 2 7B 高度对齐的低效变体

社区Reddit r/LocalLLaMA2026/02/15 08:442540

LM Arena 评测揭示了一个名为 'rotten-apple' 的模型，其表现远低于预期。该模型疑似基于 Llama 2 7B 进行深度安全对齐调优，虽然一致性极高，但整体性能却如同小模型，在对战模式中屡战屡败。此评测对关注模型对齐技术和性能评估的开发者及研究人员具有参考价值，揭示了过度对齐可能带来的性能瓶颈。

大语言模型模型评估 Llama 2 对齐安全