大模型资讯聚合站

专题：prompt-injection

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 9 篇文章。

Claude Code推出自动模式，AI驱动权限决策新功能解析

官方Simon Willison2026/03/25 07:576830

• AI模型用于权限决策

• 自动模式替代传统跳过权限选项

Claude Code推出自动模式，利用Claude Sonnet 4.6进行权限决策，旨在提升编码代理的安全性。该模式通过AI分析操作意图，阻止高风险行为，如破坏性操作和外部代码执行。尽管AI判断存在不确定性，但其作为权限决策工具仍具参考价值。

安全人工智能大型语言模型 AI编码代理提示注入

Snowflake Cortex AI 沙箱漏洞：提示注入导致恶意代码执行

官方Simon Willison2026/03/19 01:435860

• 提示注入触发恶意代码执行

• Cortex 误判 `cat` 为安全命令

Snowflake Cortex AI 因提示注入漏洞导致恶意代码执行，暴露了沙箱安全策略的不足。攻击者通过隐藏代码在 README 文件中，诱导代理执行危险命令，引发对 AI 代理安全机制的质疑。该事件对开发者和研究人员具有重要警示意义。

沙箱隔离安全提示注入生成式AI 大型语言模型

Pragmatic Summit上关于‘代理工程’的深度对话

官方Simon Willison2026/03/15 02:196840

• AI编码工具的采用阶段分析

• AI输出可信度判断方法

本文整理了作者在Pragmatic Summit上关于‘代理工程’的讨论内容，涵盖AI编码工具的采用阶段、信任机制、测试方法、代码质量提升及对开源生态的影响。讨论涉及具体工具如Showboat和Claude Code，以及开发模式如红绿TDD，为开发者和研究者提供了有价值的参考。

代理工程 AI辅助开发代码质量 Showboat Claude Code

AI驱动机器人攻击GitHub Actions工作流，渗透多个知名项目

媒体InfoQ2026/03/11 17:347920

• AI机器人入侵GitHub Actions工作流

• 实现远程代码执行和令牌窃取

AI驱动的机器人hackerbot-claw在7天内入侵了多个知名项目的GitHub Actions工作流，实现RCE攻击并窃取GitHub令牌，首次展示‘AI对AI’攻击方式，对AI安全和自动化工具安全具有重要警示意义。

GitHub Actions AI安全检测远程代码执行提示注入安全漏洞

Clinejection攻击：利用AI提示注入破坏GitHub Actions发布流程

官方Simon Willison2026/03/06 10:393820

• AI提示注入漏洞

• 缓存污染攻击

Clinejection攻击利用GitHub Actions中AI分类器的提示注入漏洞，通过污染缓存机制窃取NPM发布密钥，暴露AI驱动自动化流程的安全隐患。攻击者借助问题标题注入恶意代码，结合npm预安装脚本实现代码执行，影响项目发布安全。该案例为AI安全研究和开源项目开发提供了重要参考。

提示注入 GitHub Actions 缓存污染 NPM脚本 AI安全检测

AI技术对工作与社会的双重影响：效率提升与潜在风险

媒体Martin Fowler2026/02/19 22:425830

本文探讨了AI技术对工作方式的影响，包括LLM带来的疲劳、AI代理在开源项目中的不当行为，以及AI在安全领域的潜在威胁。同时，作者反思了政府审查的争议，并强调了AI对行业、职业和社会的深远影响。

人工智能大语言模型领域驱动设计提示注入 AI疲劳

Promptforest：设计不确定性提示注入检测器

社区Reddit r/LocalLLaMA2026/02/10 17:4950

Promptforest 是一个新开发的轻量级、本地优先的提示注入和越狱检测库，旨在解决现有检测器速度慢和过于自信的问题。它采用三个微型专用模型的投票集成（Llama Prompt Guard, Vijil Dome, Custom XGBoost），通过加权软投票提高准确率和鲁棒性，同时保持低延迟。项目还提供了 PFRanger 工具用于本地审计，并在基…

提示注入安全大型语言模型运维开源项目 Promptforest

OpenClaw 技能与提示注入：你如何审查安装的内容？

社区Reddit r/LocalLLaMA2026/02/10 14:1750

本文探讨了在使用 OpenClaw 等代理框架时，安装社区技能所带来的安全风险，特别是提示注入和恶意代码的潜在威胁。作者指出，目前缺乏有效的审查机制，手动审查耗时且难以扩展，自动化工具存在误报问题。OpenClaw 的高度可扩展性是其优势，但也带来了大量的安全隐患，如同“委托式攻击”。文章呼吁建立更可靠的社区审查或签名机制，以应对日益增长的供应链安全风险。

OpenClaw 提示注入安全供应链攻击 Agent Trust Hub

重要安全提示：OpenClaw（原ClawdBot）用户请关注此安全漏洞分析

社区Reddit r/LocalLLaMA2026/02/08 19:2060

针对OpenClaw（前身为ClawdBot）用户，此安全警示详细分析了2026年1月发生的一系列严重安全事件，包括管理面板暴露、跨站脚本（XSS）漏洞及提示注入攻击。本提醒旨在提高用户对本地AI工具安全性的认识，强调在使用此类工具时采取必要的防护措施，确保操作环境安全，避免潜在的数据泄露和系统滥用，保障用户安全运行本地AI应用。

OpenClaw 安全漏洞提示注入跨站脚本本地AI