专题：llm-security

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

深度解析Amazon Bedrock Guardrails：构建安全生成式AI应用的实战指南与最佳实践

官方AWS Machine Learning Blog2026/03/03 02:485740

本文深入探讨了Amazon Bedrock Guardrails，一个旨在帮助组织在生成式AI应用中平衡安全性、性能与用户体验的强大工具。面对生产环境中内容安全、提示攻击和敏感信息保护等挑战，Guardrails提供了一系列功能，包括文本/图像内容过滤、主题分类、敏感信息保护、上下文验证及自动推理检查。文章详细阐述了六项核心最佳实践，涵盖了从选择合适的保护…

AI安全检测 LLM 安全 Amazon Bedrock 安全护栏内容过滤

LLM对齐机制的上下文注入攻击：以“勒布朗·詹姆斯任总裁”为例

原文

媒体Lobsters AI2026/02/18 07:433820

本文深入探讨了大型语言模型（LLM）面临的一种高级对抗性攻击——“上下文注入”。该技术通过在用户输入中巧妙地嵌入误导性或虚假信息，旨在绕过LLM内置的对齐机制（如安全过滤器和事实核查），从而诱导模型产生不准确或具有误导性的输出。文章以“勒布朗·詹姆斯担任总裁”这一虚构场景为例，生动展示了LLM在接受此类注入上下文后，可能不再纠正基本事实，反而基于错误前提生…

LLM 安全上下文注入对抗性攻击模型对齐 AI伦理

GGML/GGUF文件格式潜在安全漏洞分析：LLM模型分发的新挑战

原文

媒体Lobsters AI2026/02/16 23:342820

GGML/GGUF文件格式因其在本地LLM运行中的普及，其潜在安全漏洞正成为焦点。讨论揭示，GGUF格式允许嵌入任意数据和复杂结构，可能被恶意利用。主要风险包括资源耗尽攻击（DoS）、通过不当数据解释导致的任意文件操作或代码执行，以及反序列化漏洞。这些问题对依赖GGML/GGUF的应用构成威胁，凸显了在加载模型时进行严格验证、资源限制和沙盒化处理的重要性，…

GGML库 GGUF格式 LLM 安全文件格式漏洞供应链安全

ClawBands：为你的 OpenClaw Agent 提供安全防护带（开源）

原文

社区Reddit r/LocalLLaMA2026/02/09 21:3720

ClawBands 是一个开源项目，旨在增强 OpenClaw Agent 的安全性。它通过在工具调用前进行拦截，允许用户批准或拒绝 Agent 的文件读写、删除等操作，防止因 Agent 幻觉导致的潜在危险行为。ClawBands 提供精细化策略控制、完整的审计日志和故障安全默认设置，支持终端和聊天应用集成。

开源项目智能体安全 OpenClaw LLM 安全