视觉语言模型赋能建筑AI：自动化数据标注，加速物理AI系统部署

制造业、物流业、建筑业和农业正面临严重的劳动力短缺，尤其建筑业问题突出：美国仍有近50万个职位空缺，且未来十年内40%的劳动力将退休。这导致项目延误、成本上升及发展受阻。为应对挑战，各组织正积极开发自主系统，以填补能力缺口、扩展运营，实现全天候生产力。

构建自主系统需大量标注数据集以训练AI模型，其有效性是商业价值的关键。然而，高昂的数据准备成本成为瓶颈。特别是对视频数据进行标注（识别设备、任务和环境信息）至关重要，以确保模型训练的有效性。此步骤常阻碍模型部署，延缓AI产品交付。对于拥有数百万小时视频内容的建筑公司而言，手动数据准备和标注已不切实际。视觉语言模型（VLM）通过解释图像和视频、响应自然语言查询并以远超人工的速度和规模生成描述，为这一难题提供了可行方案。

本文将探讨Bedrock Robotics如何应对此挑战。该公司通过加入AWS Physical AI Fellowship计划，并与AWS生成式AI创新中心合作，利用视觉语言模型（VLM）分析建筑视频片段，提取操作细节，并大规模生成标注训练数据集，从而优化自主建筑设备的数据准备流程。

Bedrock Robotics：加速自主建筑发展的案例研究 自2024年起，Bedrock Robotics致力于开发建筑设备自主系统。其核心产品Bedrock Operator是一套改造方案，通过结合硬件与AI模型，使挖掘机等重型机械能以极少人为干预实现厘米级精度的挖掘、平整和物料处理。然而，训练这些模型需海量捕捉设备、任务及环境的视频片段，此过程资源消耗巨大，严重制约了系统扩展性。

VLM通过分析图像和视频数据并生成文本描述，为数据标注提供了高效支持，这对于模型学习视觉模式与人类语言的关联至关重要。Bedrock Robotics利用此技术简化了AI模型的数据准备流程，从而实现设备自主操作。通过恰当的模型选择和优化，其工具识别准确率从34%提升至70%，将耗时的人工流程转变为自动化、可扩展的数据处理流程，显著加速了自主设备的部署。

此方法为面临类似数据挑战的组织提供了可复制的框架，展示了对基础模型（Foundation Models, FMs）的战略投资如何带来可衡量的运营成果和竞争优势。基础模型是利用自监督学习技术在海量数据上训练而成的模型，能学习通用表示并适应多种下游任务。VLM正是利用这些大规模预训练技术，实现了视觉与文本模态间的转换，使其能理解并生成图像和文本内容。

接下来，我们将深入探讨Bedrock Robotics如何利用基于VLM的解决方案，对数百万小时的视频片段进行标注，并加速其创新进程。

从非结构化视频数据到战略资产：VLM的应用 为实现自主建筑设备的运行，需从数百万小时的非结构化操作视频中提取关键信息。具体而言，Bedrock Robotics需识别不同场景下的工具类型、任务内容及工作现场条件。以下为该数据集的示例视频帧：

通过策略性模型优化加速AI部署 未经提示优化的现成VLM难以处理建筑视频数据，因其通常基于网页图像训练，而非挖掘机驾驶舱内的实际操作视频。这些模型无法应对特殊视角、设备特有视觉信息，也难以在灰尘或恶劣天气下正常工作。此外，它们缺乏区分相似工具（如挖掘铲和挖沟铲）的领域知识。

Bedrock Robotics与AWS创新中心通过有针对性地选择模型并优化提示来解决这些问题。团队评估了多种VLM（包括开源及亚马逊预训练模型），并利用详细的工具描述、常见工具对的区分指南及视频分析步骤来提升模型性能。在包含130个视频的测试集中，这些改进使分类准确率从34%提升至70%，且每小时视频处理成本仅为10美元。这表明优化能显著提升VLM在特定任务上的表现。对Bedrock Robotics而言，此定制方案缩短了训练周期，加快了部署速度，并构建了成本效益高且可扩展的标注流程。

未来方向：通过自动化应对劳动力短缺 对Bedrock Robotics而言，视觉语言系统实现了关键数据集的快速识别与提取，为模型训练提供了必要支持。这种70%准确率的低成本方法为数据准备奠定了坚实基础，展示了战略性AI创新如何化解劳动力限制并加速行业转型。简化数据准备的组织可加速自主系统部署，降低运营成本，并在受劳动力短缺影响的行业中探索新增长机遇。其他面临类似挑战的制造业和工业自动化企业亦可借鉴此方法，实现差异化竞争。

欲了解更多信息，请访问Bedrock Robotics官网，或了解AWS提供的物理AI资源：

作者简介： Laura Kulowski是AWS Generative AI Innovation Center的高级应用科学家，专注于开发物理AI解决方案。在加入亚马逊之前，她在哈佛大学地球与行星科学系完成了博士学位，研究木星的深层环流和磁场。 Alla Simoneau在亚马逊Web Services担任新兴技术物理AI负责人，负责推动AI与实际应用之间的创新。她拥有超过15年的经验，擅长将前沿技术转化为实际应用。 Parmida Atighehchian和Dan Volk是AWS Generative AI Innovation Center的高级数据科学家，分别在深度学习和生成AI领域拥有丰富经验。 Sri Elaprolu是AWS Generative AI Innovation Center的主任，领导团队为企业和政府机构实施前沿AI解决方案。

视觉语言模型赋能建筑AI：自动化数据标注，加速物理AI系统部署

内容评分

摘要

正文

标签