首页/详情

上海交大提出SIE框架:结构化上下文环境提升大模型通用推理能力

机器之心2026/02/23 20:14机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
9/10
营销水分
5/10

摘要

上海交大提出SIE框架,利用结构化数据构建RL训练环境,提升大模型的通用推理能力。该方法在多个任务中表现优异,且具备扩展性与泛化性,无需依赖昂贵人工标注。

正文

的后训练阶段,如何通过强化学习(RL)进一步增强推理能力成为研究热点。然而,现有RL环境面临扩展性、泛化性和可验证性的核心矛盾。上海交通大学团队提出结构化上下文环境(SIE)框架,通过自动化构建基于知识图谱等结构化数据的训练场,解决了这一问题。SIE利用种子子图检索、干扰子图过滤和部分可观测性设计,使模型在信息缺失和干扰中进行深度推理。实验显示,SIE在WebQSP、CWQ、GrailQA等任务中显著提升模型性能,并在数学和逻辑任务中展现出强大的泛化能力。该研究已被ICLR 2026收录,为推理能力的低成本提升提供了新路径。

标签