专题:data-contamination

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体机器之心2026/02/21 21:564930

北京航空航天大学团队在ICLR 2026上提出Code2Bench框架,旨在解决大语言模型(LLM)代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学,通过动态获取GitHub最新代码(防污染)和引入基于属性的测试(PBT)及100%分支覆盖率(高严谨性),构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…