SSI-Bench:基于约束流形的空间智能评估新基准
摘要
SSI-Bench是一个基于约束流形的空间智能评估基准,旨在检验多模态大模型在复杂三维结构推理中的能力。通过人工构建的1,000道排序题,该基准揭示了当前模型在三维结构识别和约束推理上的显著不足,人类表现远超AI。其核心亮点在于结合结构工程知识,提供更贴近现实的评测环境。
正文
当前多模态在空间理解榜单上表现优异,但在真实世界中面对复杂三维结构问题时却可能表现不佳。这是因为它们往往依赖2D相关性、外观先验和数据集套路来获取高分,而忽视了三维结构的可行性约束。为解决这一问题,清华大学研究团队提出了SSI-Bench,从AI与结构工程的交叉视角出发,构建了一个基于约束流形的空间智能评估基准。该基准通过复杂三维结构的约束流形环境,系统性地检验多模态的空间智能能力。
SSI-Bench将评测任务统一为排序题,要求模型在指定几何或拓扑准则下输出正确的全排列顺序。该基准覆盖了几何、拓扑和多视角一致性三大类任务,共包含1,000道题目。构建过程中,10位研究者投入超过400小时,从大量真实结构图片中进行人工筛选与题目设计,确保数据集的质量与多样性。
在评测中,SSI-Bench对31个主流VLM进行了系统测试,结果显示人类在空间智能任务中仍占据明显优势,平均准确率为91.6%,而最强闭源模型Gemini-3-Flash仅达到33.6%,最强开源模型GLM-4.6V为22.2%。即使模型生成更长的推理过程,整体提升也有限,且在部分高度依赖全局三维一致性的任务中,过度推理反而可能加剧错误。
论文进一步分析了模型在任务中的常见错误,包括构件范围误判、构件/节点识别错误、计算与比较逻辑错误以及3D空间逻辑错误。这些错误揭示了当前模型在三维结构构型识别和约束一致的空间推理方面的不足。SSI-Bench的提出,旨在推动空间从‘会看图说话’向‘会在结构里思考’的转变,为AI在结构工程等领域的应用提供更现实的评估标准。