大模型资讯聚合站

专题：task-planning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

深度开发智能体：超越传统文件系统的AI应用

社区Hacker News2026/03/28 08:396740

• AI Agent具备自主决策能力

• 强调交互与任务规划

本文聚焦AI Agent的深度开发，强调其超越传统文件系统的交互与决策能力。通过优化架构和算法，AI Agent可实现更智能的行为，并适用于实际场景。核心亮点包括自主任务执行、记忆机制和任务规划。

AI代理任务规划决策机制交互能力应用落地

AsgardBench：视觉交互规划能力评估新基准

官方Microsoft Research Blog2026/03/27 03:025820

• 评估视觉交互规划能力

• 基于AI2-THOR仿真环境

AsgardBench是首个针对视觉交互规划的基准测试工具，通过AI2-THOR仿真环境评估AI代理在动态场景中的计划调整能力。研究证实视觉信息显著提升任务成功率，但现有模型仍存在细节处理缺陷。该开源项目为改进视觉感知系统和规划算法提供实验基础，推动具身智能领域发展。

开源工具 AI代理评估动态反馈机制环境适应性视觉感知

GroundedPlanBench：融合空间信息的机器人长时序任务规划框架

官方Microsoft Research Blog2026/03/27 00:035840

• 提出GroundedPlanBench框架整合空间信息提升任务规划

• 利用SAM3技术实现物体精确定位与移动路径追踪

GroundedPlanBench是一个创新框架，通过将机器人演示视频转化为结构化数据，帮助视觉语言模型同时学习任务规划与空间定位能力。该框架基于微软DROID数据集，结合Meta SAM3图像分割技术，构建了1,009个真实世界任务的测试场景。实验验证表明，其在复杂长时序任务中显著提升了机器人动作准确性和任务完成率，为AI在机器人操控领域的发展提供了新方…

机器人规划空间接地基准测试视频到空间规划机器人技术

CORPGEN：多任务企业环境中的AI代理优化方案

官方Microsoft Research Blog2026/02/27 01:065940

• 多任务环境模拟真实职场场景

• 分层记忆系统管理信息流

CORPGEN是微软提出的多任务AI代理框架，通过模拟企业多任务环境解决传统模型在复杂依赖任务中的性能瓶颈。其核心创新包括分层记忆系统、经验学习机制和自主协作数字员工，实验显示在46任务场景下完成率提升至15.2%。该方案为AI代理在真实职场场景中的应用提供了系统性优化，具有显著的实践价值。

智能体协调多时间线任务环境自主数字员工协作式AI代理代理协作

Claude Code 实现任务规划与执行分离的完整指南

社区Hacker News2026/02/22 08:295650

本文介绍了利用 Claude Code 将任务规划与执行解耦的实现方法。通过提示工程让模型生成结构化的执行计划，随后持久化并交由执行模块逐步完成。文章详细阐述了提示模板、计划校验、错误回滚等关键技术，并提供了完整的 Python 示例代码，帮助读者快速构建可观测、可复用的任务流水线。

Claude Code 任务规划执行分离提示工程大模型自动化