专题：ai-explainability

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

AI代理可靠性追踪系统

原文

媒体Lobsters AI2026/03/10 10:206830

• 追踪AI代理可靠性指标

• 包含数据收集与可视化

本文提出了一种AI代理可靠性追踪系统，用于评估AI代理在任务执行中的稳定性、安全性和可解释性。系统通过数据收集、指标定义和可视化展示，帮助开发者更好地理解和优化AI代理的表现。核心亮点在于其可扩展性和实际应用案例。

AI代理可靠性追踪系统 AI 安全 AI可解释性

Goodfire AI探索机械可解释性前沿：Myra Deng与Mark Bissell的技术实践

原文

媒体Latent Space2026/02/07 06:456820

Goodfire AI的Myra Deng和Mark Bissell展示了机械可解释性技术在模型行为检测、修正及跨领域应用中的实践。通过SAEs、probes等方法，他们实现了对模型内部特征的识别与编辑，提升了AI的透明度和可控性。在医疗健康领域，该技术被用于优化模型以加速药物发现，具有实际应用价值。

机械可解释性模型优化技术 AI可解释性医疗AI应用 LLM技术