Code2Bench:北航团队发布动态代码LLM评测新范式,破解数据污染与高分幻觉原文媒体机器之心2026/02/21 21:564930北京航空航天大学团队在ICLR 2026上提出Code2Bench框架,旨在解决大语言模型(LLM)代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学,通过动态获取GitHub最新代码(防污染)和引入基于属性的测试(PBT)及100%分支覆盖率(高严谨性),构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…大语言模型代码生成基准测试数据污染PBT