专题:llm-security

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

官方AWS Machine Learning Blog2026/03/03 02:485740

本文深入探讨了Amazon Bedrock Guardrails,一个旨在帮助组织在生成式AI应用中平衡安全性、性能与用户体验的强大工具。面对生产环境中内容安全、提示攻击和敏感信息保护等挑战,Guardrails提供了一系列功能,包括文本/图像内容过滤、主题分类、敏感信息保护、上下文验证及自动推理检查。文章详细阐述了六项核心最佳实践,涵盖了从选择合适的保护…

媒体Lobsters AI2026/02/18 07:433820

本文深入探讨了大型语言模型(LLM)面临的一种高级对抗性攻击——“上下文注入”。该技术通过在用户输入中巧妙地嵌入误导性或虚假信息,旨在绕过LLM内置的对齐机制(如安全过滤器和事实核查),从而诱导模型产生不准确或具有误导性的输出。文章以“勒布朗·詹姆斯担任总裁”这一虚构场景为例,生动展示了LLM在接受此类注入上下文后,可能不再纠正基本事实,反而基于错误前提生…

媒体Lobsters AI2026/02/16 23:342820

GGML/GGUF文件格式因其在本地LLM运行中的普及,其潜在安全漏洞正成为焦点。讨论揭示,GGUF格式允许嵌入任意数据和复杂结构,可能被恶意利用。主要风险包括资源耗尽攻击(DoS)、通过不当数据解释导致的任意文件操作或代码执行,以及反序列化漏洞。这些问题对依赖GGML/GGUF的应用构成威胁,凸显了在加载模型时进行严格验证、资源限制和沙盒化处理的重要性,…

社区Reddit r/LocalLLaMA2026/02/09 21:3720

ClawBands 是一个开源项目,旨在增强 OpenClaw Agent 的安全性。它通过在工具调用前进行拦截,允许用户批准或拒绝 Agent 的文件读写、删除等操作,防止因 Agent 幻觉导致的潜在危险行为。ClawBands 提供精细化策略控制、完整的审计日志和故障安全默认设置,支持终端和聊天应用集成。