专题:multimodal-learning

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

官方Microsoft Research Blog2026/03/27 00:035840
提出GroundedPlanBench框架整合空间信息提升任务规划
利用SAM3技术实现物体精确定位与移动路径追踪

GroundedPlanBench是一个创新框架,通过将机器人演示视频转化为结构化数据,帮助视觉语言模型同时学习任务规划与空间定位能力。该框架基于微软DROID数据集,结合Meta SAM3图像分割技术,构建了1,009个真实世界任务的测试场景。实验验证表明,其在复杂长时序任务中显著提升了机器人动作准确性和任务完成率,为AI在机器人操控领域的发展提供了新方…

媒体InfoQ 中文2026/03/24 19:004840
DoorDash发布DashCLIP模型用于餐饮图像语义搜索
模型训练使用3200万个人工标注的图像-文本对

DashCLIP 是 DoorDash 推出的多模态AI模型,利用3200万个餐饮场景标注数据,实现图像、文本与用户查询的语义对齐。该模型显著提升菜品图像的零样本检索准确率,已应用于App内拍照搜菜功能。其核心亮点在于构建了大规模垂直领域标注数据集,并通过对比学习优化餐饮语义空间,为行业提供可复用的多模态搜索范式。