大模型资讯聚合站

专题：tool-use

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 6 篇文章。

Chat SDK：无缝集成AI代理，让终端用户直接与智能体对话

官方Vercel Blog2026/03/20 05:015840

• Chat SDK 让开发者将AI代理嵌入聊天界面

• 支持多代理协同与工具调用自动路由

Chat SDK 是一个用于在应用中直接集成AI代理的开发者工具，允许用户通过聊天界面与具备记忆、规划和工具调用能力的智能体交互。它通过标准化API降低开发门槛，支持多代理协同与上下文管理，兼容主流大模型，助力产品快速实现‘会思考的聊天机器人’。核心亮点是零重构接入与实时决策追踪。

AI代理聊天SDK 大模型集成工具调用状态管理

Amazon Nova 2 迁移指南：从 Nova 1 升级至增强版生成式AI模型

媒体AWS Machine Learning Blog2026/03/18 23:134830

• 从 Nova 1 迁移至 Nova 2 需更新模型 ID 和 API 参数

• Nova 2 支持 200K 上下文窗口与内置工具调用

本文指导用户将 Amazon Bedrock 上的 Amazon Nova 1 模型迁移至性能更强的 Nova 2，涵盖模型ID更新、API参数调整、新功能（如200K上下文窗口、内置工具与代码解释器）集成等关键步骤。适用于需提升推理能力与自动化水平的AI应用，帮助开发者平滑过渡并最大化新模型优势。

Amazon Nova 2 Amazon Bedrock 上下文窗口工具调用代码解释器

AI代理评估实战：基准测试、自动化评估与人工审核的三位一体方法

媒体InfoQ2026/03/16 19:004840

• AI代理评估需结合基准测试、自动化流程与人工审核

• 多步骤任务需测试工具调用与状态保持能力

本文提出评估AI代理的三位一体方法：结合基准测试、自动化流程与人工审核，解决多步骤任务、工具调用和长对话中的可靠性难题。核心亮点在于引入工程化评估指标（如工具滥用率）并警示LLM自评估的偏差风险，为开发者构建可信赖的AI代理系统提供可落地的评估框架。

AI代理评估基准工具调用多轮交互人类监督机制

智谱发布GLM-5-Turbo：全球首个专为AI Agent任务优化的闭源大模型，低调上线引爆社区

媒体爱范儿2026/03/16 16:218740

• GLM-5-Turbo是智谱2025年首个闭源模型

• 专为AI Agent任务（龙虾场景）优化

GLM-5-Turbo是智谱发布的首个闭源大模型，专为复杂AI Agent任务（‘龙虾任务’）优化，显著提升工具调用、多步执行与多智能体协作能力。在自研基准测试中表现优异，已上线API服务，支持个人与企业级应用，标志着闭源模型在Agent场景的商业化落地。

GLM-5-Turbo AI代理工具调用 ZClawBench基准闭源模型

睡眠期间自动运行的AI代理：无人值守任务自动化的新范式

社区Hacker News2026/03/11 03:094680

• AI代理可在用户离线时持续运行任务

• 基于LLM实现任务规划与工具调用

本文介绍了一类在用户睡眠期间自主运行的AI代理系统，通过LLM驱动的任务规划与工具调用，实现无人值守的自动化操作，如数据处理、智能调度与响应。其核心亮点在于长期任务连续性与环境交互能力，突破了传统脚本的静态限制，为个人自动化开辟了新维度，但安全与稳定性仍是落地瓶颈。

AI代理大语言模型任务自动化长期记忆工具调用

微软Foundry上线GPT-5.4：号称生产级AI代理引擎，但OpenAI从未发布过此版本

官方Microsoft Azure Blog2026/03/06 07:039240

• 微软Foundry上线‘GPT-5.4’模型

• 声称具备生产级推理与自动化执行能力

微软Foundry推出名为‘GPT-5.4’的AI模型，宣称具备生产级推理与自动化执行能力，适用于企业工作流与代理系统。但OpenAI从未发布该版本，实为微软对内部定制模型的营销命名。其核心亮点是集成计算机操作与稳定工具调用，但缺乏技术细节与开源验证，属于企业级AI服务的包装升级。

AI代理生产级AI 工具调用微软Foundry GPT-4o