视觉语言模型赋能建筑AI:自动化数据标注,加速物理AI系统部署
内容评分
摘要
Bedrock Robotics与AWS合作,利用视觉语言模型(VLM)自动化建筑视频数据标注,以加速自主建筑设备的开发。通过提示工程优化,VLM将工具识别准确率从34%提升至70%,且每小时处理成本仅10美元。此方案有效解决了劳动力短缺导致的数据准备瓶颈,为物理AI系统的大规模部署提供了可扩展、高效的解决方案。
正文
制造业、物流业、建筑业和农业正面临严重的劳动力短缺,尤其建筑业问题突出:美国仍有近50万个职位空缺,且未来十年内40%的劳动力将退休。这导致项目延误、成本上升及发展受阻。为应对挑战,各组织正积极开发自主系统,以填补能力缺口、扩展运营,实现全天候生产力。
构建自主系统需大量标注数据集以训练AI模型,其有效性是商业价值的关键。然而,高昂的数据准备成本成为瓶颈。特别是对视频数据进行标注(识别设备、任务和环境信息)至关重要,以确保模型训练的有效性。此步骤常阻碍模型部署,延缓AI产品交付。对于拥有数百万小时视频内容的建筑公司而言,手动数据准备和标注已不切实际。视觉语言模型(VLM)通过解释图像和视频、响应自然语言查询并以远超人工的速度和规模生成描述,为这一难题提供了可行方案。
本文将探讨Bedrock Robotics如何应对此挑战。该公司通过加入AWS Physical AI Fellowship计划,并与AWS生成式AI创新中心合作,利用视觉语言模型(VLM)分析建筑视频片段,提取操作细节,并大规模生成标注训练数据集,从而优化自主建筑设备的数据准备流程。
Bedrock Robotics:加速自主建筑发展的案例研究 自2024年起,Bedrock Robotics致力于开发建筑设备自主系统。其核心产品Bedrock Operator是一套改造方案,通过结合硬件与AI模型,使挖掘机等重型机械能以极少人为干预实现厘米级精度的挖掘、平整和物料处理。然而,训练这些模型需海量捕捉设备、任务及环境的视频片段,此过程资源消耗巨大,严重制约了系统扩展性。
VLM通过分析图像和视频数据并生成文本描述,为数据标注提供了高效支持,这对于模型学习视觉模式与人类语言的关联至关重要。Bedrock Robotics利用此技术简化了AI模型的数据准备流程,从而实现设备自主操作。通过恰当的模型选择和优化,其工具识别准确率从34%提升至70%,将耗时的人工流程转变为自动化、可扩展的数据处理流程,显著加速了自主设备的部署。
此方法为面临类似数据挑战的组织提供了可复制的框架,展示了对基础模型(Foundation Models, FMs)的战略投资如何带来可衡量的运营成果和竞争优势。基础模型是利用自监督学习技术在海量数据上训练而成的模型,能学习通用表示并适应多种下游任务。VLM正是利用这些大规模预训练技术,实现了视觉与文本模态间的转换,使其能理解并生成图像和文本内容。
接下来,我们将深入探讨Bedrock Robotics如何利用基于VLM的解决方案,对数百万小时的视频片段进行标注,并加速其创新进程。
从非结构化视频数据到战略资产:VLM的应用 为实现自主建筑设备的运行,需从数百万小时的非结构化操作视频中提取关键信息。具体而言,Bedrock Robotics需识别不同场景下的工具类型、任务内容及工作现场条件。以下为该数据集的示例视频帧:
通过策略性模型优化加速AI部署 未经提示优化的现成VLM难以处理建筑视频数据,因其通常基于网页图像训练,而非挖掘机驾驶舱内的实际操作视频。这些模型无法应对特殊视角、设备特有视觉信息,也难以在灰尘或恶劣天气下正常工作。此外,它们缺乏区分相似工具(如挖掘铲和挖沟铲)的领域知识。
Bedrock Robotics与AWS创新中心通过有针对性地选择模型并优化提示来解决这些问题。团队评估了多种VLM(包括开源及亚马逊预训练模型),并利用详细的工具描述、常见工具对的区分指南及视频分析步骤来提升模型性能。在包含130个视频的测试集中,这些改进使分类准确率从34%提升至70%,且每小时视频处理成本仅为10美元。这表明优化能显著提升VLM在特定任务上的表现。对Bedrock Robotics而言,此定制方案缩短了训练周期,加快了部署速度,并构建了成本效益高且可扩展的标注流程。
未来方向:通过自动化应对劳动力短缺 对Bedrock Robotics而言,视觉语言系统实现了关键数据集的快速识别与提取,为模型训练提供了必要支持。这种70%准确率的低成本方法为数据准备奠定了坚实基础,展示了战略性AI创新如何化解劳动力限制并加速行业转型。简化数据准备的组织可加速自主系统部署,降低运营成本,并在受劳动力短缺影响的行业中探索新增长机遇。其他面临类似挑战的制造业和工业自动化企业亦可借鉴此方法,实现差异化竞争。
欲了解更多信息,请访问Bedrock Robotics官网,或了解AWS提供的物理AI资源:
作者简介: Laura Kulowski是AWS Generative AI Innovation Center的高级应用科学家,专注于开发物理AI解决方案。在加入亚马逊之前,她在哈佛大学地球与行星科学系完成了博士学位,研究木星的深层环流和磁场。 Alla Simoneau在亚马逊Web Services担任新兴技术物理AI负责人,负责推动AI与实际应用之间的创新。她拥有超过15年的经验,擅长将前沿技术转化为实际应用。 Parmida Atighehchian和Dan Volk是AWS Generative AI Innovation Center的高级数据科学家,分别在深度学习和生成AI领域拥有丰富经验。 Sri Elaprolu是AWS Generative AI Innovation Center的主任,领导团队为企业和政府机构实施前沿AI解决方案。