专题：property-based-testing

Code2Bench：北航团队发布动态代码LLM评测新范式，破解数据污染与高分幻觉

媒体机器之心2026/02/21 21:564930

北京航空航天大学团队在ICLR 2026上提出Code2Bench框架，旨在解决大语言模型（LLM）代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学，通过动态获取GitHub最新代码（防污染）和引入基于属性的测试（PBT）及100%分支覆盖率（高严谨性），构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…

大语言模型代码生成基准测试数据污染 PBT