从黑箱排行榜到社区评估:重新审视 LLM 评测范式原文媒体Hugging Face Blog2026/02/04 08:002640文章批判了传统黑箱排行榜在 LLM 评测中的局限,指出数据泄漏、指标单一和评分脚本不透明等问题。随后介绍了社区评估的概念与实践,包括开放评测协议、多模态评分和持续集成流水线,并列举了 HELM、OpenAI Evals、EleutherAI Open‑Eval 等案例,提供了落地建议,旨在推动更透明、可复现的模型评估生态。LLM评估排行榜社区评估Helm开源项目