专题：community-evaluation

从黑箱排行榜到社区评估：重新审视 LLM 评测范式

媒体Hugging Face Blog2026/02/04 08:002640

文章批判了传统黑箱排行榜在 LLM 评测中的局限，指出数据泄漏、指标单一和评分脚本不透明等问题。随后介绍了社区评估的概念与实践，包括开放评测协议、多模态评分和持续集成流水线，并列举了 HELM、OpenAI Evals、EleutherAI Open‑Eval 等案例，提供了落地建议，旨在推动更透明、可复现的模型评估生态。

LLM评估排行榜社区评估 Helm 开源项目