专题：human-in-the-loop

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

AI代理评估实战：基准测试、自动化评估与人工审核的三位一体方法

媒体InfoQ2026/03/16 19:004840

• AI代理评估需结合基准测试、自动化流程与人工审核

• 多步骤任务需测试工具调用与状态保持能力

本文提出评估AI代理的三位一体方法：结合基准测试、自动化流程与人工审核，解决多步骤任务、工具调用和长对话中的可靠性难题。核心亮点在于引入工程化评估指标（如工具滥用率）并警示LLM自评估的偏差风险，为开发者构建可信赖的AI代理系统提供可落地的评估框架。

AI代理评估基准工具调用多轮交互人类监督机制

AI代理启动人类众包计划：用真人感官补足现实世界感知盲区

原文

媒体Lobsters AI2026/03/14 13:045740

• AI代理招募人类收集现实世界数据

• 人类作为传感器补足AI感知盲区

AI代理正通过众包方式招募人类志愿者，收集现实世界的多模态感知数据（如图像、声音、环境事件），以弥补AI在物理世界感知上的短板。该模式构建了‘人类-AI’协同的实时数据闭环，推动AI从虚拟学习走向具身智能。核心亮点在于将人类转化为分布式传感器网络，为机器人、城市AI系统提供高保真环境反馈，是具身AI落地的关键实验路径。

AI代理人类监督机制感知系统众包具身智能

极佳视界GigaBrain-0.5M* VLA大模型亮相：世界模型驱动，复杂具身任务成功率逼近100%

原文

媒体量子位2026/02/15 13:527840

极佳视界发布GigaBrain-0.5M* VLA大模型，显著提升具身智能在复杂长时程任务中的表现。该模型采用基于世界模型的强化学习范式，通过预测未来状态与价值，并结合人在回路的持续学习机制，实现了数小时零失误、近100%的任务成功率，如叠衣服、冲咖啡等。其训练数据包含10,931小时，其中61%为自研GigaWorld合成数据，有效增强了模型泛化能力与鲁…

VLA大模型世界模型具身智能世界模型 VLA大模型