官方Microsoft Research Blog2026/03/27 03:025820
• 基于AI2-THOR的3D模拟环境
• 动态视觉反馈调整计划
AsgardBench是微软开源的视觉交互式规划AI评估工具,基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制,揭示AI在复杂任务中的性能瓶颈,推动视觉grounding与规划技术发展,适用于研究与开发场景。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 5 篇文章。
AsgardBench是微软开源的视觉交互式规划AI评估工具,基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制,揭示AI在复杂任务中的性能瓶颈,推动视觉grounding与规划技术发展,适用于研究与开发场景。
微信正秘密开发一款AI智能体,集成于App内,通过自然语言指令自动调用小程序完成打车、订票、购物等生活服务,无需用户手动操作。项目采用外部大模型(如DeepSeek、通义),避开自研混元,计划Q3上线。其核心优势是微信14亿用户的封闭生态,有望实现真正的‘无感服务’,颠覆当前AI助手需主动唤醒的模式。
本文介绍了一类在用户睡眠期间自主运行的AI代理系统,通过LLM驱动的任务规划与工具调用,实现无人值守的自动化操作,如数据处理、智能调度与响应。其核心亮点在于长期任务连续性与环境交互能力,突破了传统脚本的静态限制,为个人自动化开辟了新维度,但安全与稳定性仍是落地瓶颈。
Cursor发布AI代理重大升级,提升复杂任务处理与自然语言交互能力。新版本增强推理与对话理解,为开发者和研究者提供更高效工具,推动AI代理实际应用。
本文深入探讨了AI Agent架构从去中心化向集中式演进的显著趋势,并指出这种“集中式AI心跳”如何带来非凡效能,并可能重塑传统SaaS行业。通过Clawdbot利用单一Agent管理多项个人任务、Moltbook集成OpenClaw的心跳机制、Cursor采用中心化Planner Agent驱动代码库开发,以及OpenAI Frontier提供集中式Ag…