微软推出Argos:多模态强化学习的自主验证框架原文官方Microsoft Research Blog2026/01/21 01:006820微软推出Argos框架,结合强化学习与自主验证,提升多模态AI代理的可靠性与准确性。通过验证答案的视觉和时间依据,减少错误并优化训练数据,适用于复杂任务和实际应用。多模态强化学习自主验证AI代理可靠性奖励机制设计视觉逻辑检查