专题:langsmith

按该标签聚合的大模型资讯列表(自动分类与标签提取)。21 篇文章。

媒体LangChain Blog2026/03/27 22:006840
手动审查跟踪记录建立基准
区分能力评估与回归评估

本文为AI代理评估提供了一套系统性准备清单,涵盖手动审查、评估级别选择、数据集构建等关键步骤。强调通过跟踪记录建立基准,区分能力与回归评估,并确保评估的可解释性与针对性。适用于开发者和研究人员构建和优化代理评估体系。

媒体LangChain Blog2026/03/26 23:186840
构建针对性代理评估体系
定义多维度性能指标

本文提出了一套针对深度代理的评估体系构建方法,强调通过针对性评估优化代理行为。涵盖多个测试类别和指标,如正确性、效率等,并通过开源实现促进社区协作。核心亮点在于评估与实际生产需求的紧密对齐,以及对模型性能的全面度量。

媒体LangChain Blog2026/03/26 00:107820
支持共享技能增强代理知识
多种方式创建和管理技能

LangSmith Fleet 新增技能功能,允许团队为AI代理分配业务知识,提升其任务处理能力。技能可通过AI生成、模板或手动编写创建,并可跨平台共享和移植。功能支持版本控制和多所有者协作,有助于知识管理与团队协作。适用于开发者和企业用户,增强AI代理的实用性和可维护性。

媒体LangChain Blog2026/03/24 05:377850
LangChain展示AI代理生态与技术实践
LangSmith上线Google Cloud Marketplace

LangChain在Google Cloud Next 2026展示其AI代理生态,包括LangSmith的最新功能、技术讨论和社交活动。重点聚焦于高并发、零信任隔离和开发人员体验优化,为AI应用构建者提供实践参考。

媒体LangChain Blog2026/03/24 01:297860
LangSmith Fleet 支持两种代理授权类型
助手使用用户认证,专用代理有固定凭据

LangSmith Fleet 引入两种代理授权机制:助手(代表用户)和专用代理(固定凭据)。文章探讨了代理在不同场景下的权限管理问题,并介绍了未来可能的改进方向,如个性化内存管理。该内容对开发者和研究人员具有重要参考价值。

媒体LangChain Blog2026/03/18 23:387830
Polly全面集成LangSmith所有页面
支持跨页面对话记忆与操作执行

LangSmith 推出 Polly,一款 AI 助手,用于调试和分析 AI 代理。Polly 支持所有页面使用,具备上下文记忆和执行操作能力,可帮助用户理解用户情绪、编写评估代码、对比实验结果,提升调试效率。

媒体LangChain Blog2026/03/17 23:517870
提供安全代码执行环境
支持AI智能体运行和验证代码

LangSmith推出沙箱功能,为AI智能体提供安全的代码执行环境。该环境通过隔离技术防止恶意操作,支持快速集成与多种应用场景,如编码助手、CI测试和数据分析。其核心亮点在于安全性、可扩展性和与现有工具的兼容性。

媒体AINews2026/03/17 13:446820
GPT-5.4 mini/nano发布
性能接近大型模型

OpenAI推出GPT-5.4 mini/nano小型语言模型,支持40万词上下文处理,推理速度提升超2倍。尽管仅使用30% Codex资源,其编码性能已接近完整模型,成为开发者新宠。但定价争议与第三方评估分歧存在。同时,子代理技术、安全代码执行框架及注意力机制研究同步推进,推动LLM应用生态发展。

媒体LangChain Blog2026/03/17 01:207830
新增 deploy CLI 命令简化代理部署
自动构建 Docker 镜像并配置基础设施

LangChain 推出 `deploy cli` 工具,简化 AI 代理的部署与管理。通过命令行一键部署到 LangSmith 平台,自动构建 Docker 镜像并配置 Postgres 和 Redis 等基础设施,提升 CI/CD 集成效率。新增代理模板和管理命令,方便开发者快速构建和部署 AI 代理。

媒体LangChain Blog2026/03/04 08:057820
Agent Builder集成新功能提升开发效率
LangSmith增强追踪与报告调度能力

LangChain 2026年2月更新聚焦于Agent Builder新功能、LangSmith性能优化及生产监控方法,同时展示了开源进展与行业应用案例,为AI Agent开发和部署提供了实用工具与实践经验。

媒体LangChain Blog2026/02/22 11:516820
代理评估需追踪推理过程
评估粒度包括单步、流程和多轮

本文深入解析AI代理的可观测性与评估方法,强调其与传统软件的不同。通过追踪代理的执行过程,开发者可以更有效地调试推理逻辑、验证工具调用和维护上下文。文章介绍了三种核心可观测性原语和三种评估粒度,并指出LangSmith等工具在代理开发中的重要性。

媒体LangChain Blog2026/02/18 16:056810
代码驱动评估贯穿开发流程
双层评估机制确保质量

Monday Service与LangSmith合作,构建以代码为中心的AI服务评估策略,通过离线和在线评估双层机制确保AI代理质量。核心亮点包括快速反馈循环、全面测试覆盖、代理可观测性及评估逻辑的版本控制与CI/CD集成。

媒体LangChain Blog2026/02/10 10:477550

LangChain 将其代理工程平台 LangSmith 推至 Google Cloud Marketplace,GCP 客户可直接在云端采购并统一计费。LangSmith 提供可观测性、评估、部署和零代码 Agent Builder 等功能,并深度集成 Vertex AI、Gemini、各类数据库及 GKE。平台支持 SaaS、混合和自托管三种部署模式,…

媒体LangChain Blog2026/01/30 10:275630

LangChain 1 月发布多项代理相关更新:正式上线 LangSmith Agent Builder,支持自然语言描述自动生成代理;实验结果并排对比功能帮助快速定位回归;Insights Agent 为自托管用户提供使用模式分析。开源方面,LangChain JS 1.2.13 引入动态工具和流式错误处理,并支持子代理运行进度可视化。重点强调代理可观测…