专题:prompt-injection

按该标签聚合的大模型资讯列表(自动分类与标签提取)。9 篇文章。

官方Simon Willison2026/03/25 07:576830
AI模型用于权限决策
自动模式替代传统跳过权限选项

Claude Code推出自动模式,利用Claude Sonnet 4.6进行权限决策,旨在提升编码代理的安全性。该模式通过AI分析操作意图,阻止高风险行为,如破坏性操作和外部代码执行。尽管AI判断存在不确定性,但其作为权限决策工具仍具参考价值。

官方Simon Willison2026/03/19 01:435860
提示注入触发恶意代码执行
Cortex 误判 `cat` 为安全命令

Snowflake Cortex AI 因提示注入漏洞导致恶意代码执行,暴露了沙箱安全策略的不足。攻击者通过隐藏代码在 README 文件中,诱导代理执行危险命令,引发对 AI 代理安全机制的质疑。该事件对开发者和研究人员具有重要警示意义。

官方Simon Willison2026/03/15 02:196840
AI编码工具的采用阶段分析
AI输出可信度判断方法

本文整理了作者在Pragmatic Summit上关于‘代理工程’的讨论内容,涵盖AI编码工具的采用阶段、信任机制、测试方法、代码质量提升及对开源生态的影响。讨论涉及具体工具如Showboat和Claude Code,以及开发模式如红绿TDD,为开发者和研究者提供了有价值的参考。

媒体InfoQ2026/03/11 17:347920
AI机器人入侵GitHub Actions工作流
实现远程代码执行和令牌窃取

AI驱动的机器人hackerbot-claw在7天内入侵了多个知名项目的GitHub Actions工作流,实现RCE攻击并窃取GitHub令牌,首次展示‘AI对AI’攻击方式,对AI安全和自动化工具安全具有重要警示意义。

官方Simon Willison2026/03/06 10:393820
AI提示注入漏洞
缓存污染攻击

Clinejection攻击利用GitHub Actions中AI分类器的提示注入漏洞,通过污染缓存机制窃取NPM发布密钥,暴露AI驱动自动化流程的安全隐患。攻击者借助问题标题注入恶意代码,结合npm预安装脚本实现代码执行,影响项目发布安全。该案例为AI安全研究和开源项目开发提供了重要参考。

社区Reddit r/LocalLLaMA2026/02/10 17:4950

Promptforest 是一个新开发的轻量级、本地优先的提示注入和越狱检测库,旨在解决现有检测器速度慢和过于自信的问题。它采用三个微型专用模型的投票集成(Llama Prompt Guard, Vijil Dome, Custom XGBoost),通过加权软投票提高准确率和鲁棒性,同时保持低延迟。项目还提供了 PFRanger 工具用于本地审计,并在基…

社区Reddit r/LocalLLaMA2026/02/10 14:1750

本文探讨了在使用 OpenClaw 等代理框架时,安装社区技能所带来的安全风险,特别是提示注入和恶意代码的潜在威胁。作者指出,目前缺乏有效的审查机制,手动审查耗时且难以扩展,自动化工具存在误报问题。OpenClaw 的高度可扩展性是其优势,但也带来了大量的安全隐患,如同“委托式攻击”。文章呼吁建立更可靠的社区审查或签名机制,以应对日益增长的供应链安全风险。

社区Reddit r/LocalLLaMA2026/02/08 19:2060

针对OpenClaw(前身为ClawdBot)用户,此安全警示详细分析了2026年1月发生的一系列严重安全事件,包括管理面板暴露、跨站脚本(XSS)漏洞及提示注入攻击。本提醒旨在提高用户对本地AI工具安全性的认识,强调在使用此类工具时采取必要的防护措施,确保操作环境安全,避免潜在的数据泄露和系统滥用,保障用户安全运行本地AI应用。