专题：visual-language-model

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

GroundedPlanBench：融合空间信息的机器人长时序任务规划框架

官方Microsoft Research Blog2026/03/27 00:035840

• 提出GroundedPlanBench框架整合空间信息提升任务规划

• 利用SAM3技术实现物体精确定位与移动路径追踪

GroundedPlanBench是一个创新框架，通过将机器人演示视频转化为结构化数据，帮助视觉语言模型同时学习任务规划与空间定位能力。该框架基于微软DROID数据集，结合Meta SAM3图像分割技术，构建了1,009个真实世界任务的测试场景。实验验证表明，其在复杂长时序任务中显著提升了机器人动作准确性和任务完成率，为AI在机器人操控领域的发展提供了新方…

机器人规划空间接地基准测试视频到空间规划机器人技术

视觉语言模型赋能建筑AI：自动化数据标注，加速物理AI系统部署

原文

媒体AWS Machine Learning Blog2026/02/24 07:205660

Bedrock Robotics与AWS合作，利用视觉语言模型（VLM）自动化建筑视频数据标注，以加速自主建筑设备的开发。通过提示工程优化，VLM将工具识别准确率从34%提升至70%，且每小时处理成本仅10美元。此方案有效解决了劳动力短缺导致的数据准备瓶颈，为物理AI系统的大规模部署提供了可扩展、高效的解决方案。

视觉语言模型数据标注物理AI 建筑自动化提示工程