专题：model-robustness

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 1 篇文章。

EsoLang-Bench：用冷门语言测试LLM的推理边界

社区Hacker News2026/03/20 05:014830

• 用冷门语言测试LLM推理能力

• 揭示模型在非标准输入下的表现

EsoLang-Bench 通过冷门编程语言评估LLM的推理能力，揭示其在非标准输入下的表现。该方法具有创新性，为模型评估提供了新视角，对研究者有重要参考价值。