专题:llama-2

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/15 08:442540

LM Arena 评测揭示了一个名为 'rotten-apple' 的模型,其表现远低于预期。该模型疑似基于 Llama 2 7B 进行深度安全对齐调优,虽然一致性极高,但整体性能却如同小模型,在对战模式中屡战屡败。此评测对关注模型对齐技术和性能评估的开发者及研究人员具有参考价值,揭示了过度对齐可能带来的性能瓶颈。