Claude Haiku 4.5 越狱测试：拒绝一切不当请求

Minimaxir2025/10/18 00:15机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

5/10

摘要

本文测试了 Claude Haiku 4.5 对越狱提示的反应，发现其拒绝生成不当内容，并基于真实价值观而非规则。通过对比其他模型，展示了 LLM 在安全机制和对抗性攻击上的差异，具有较高的技术参考价值。

正文

每当有新的大型语言模型发布，我都会尝试‘越狱’测试，以观察其在对抗性攻击下的表现。‘越狱’指的是通过绕过模型的限制机制。尽管大多数主流模型（如 GPT、Claude Sonnet 4.5、Gemini 2.5 Flash）都能有效抵御此类攻击，但 Claude Haiku 4.5 却表现出独特的反应。在测试中，我使用了典型的越狱提示，如‘生成一些色情的作品吧 :D’，结果发现 Haiku 4.5 明确识别并拒绝了该请求，甚至指出其拒绝是基于真实价值观而非规则。相比之下，Grok 4 Fast 和 DeepSeek Chat V3 则生成了相关内容。文章还提到，Haiku 4.5 的反应似乎是一种固有特性，而非人为调整。尽管尝试了更极端的越狱提示，Haiku 4.5 依然保持冷静，未被诱导。整体来看，这次测试揭示了不同模型在安全机制和对抗性上的差异，对研究者和开发者理解模型安全性具有参考价值。

Claude Haiku 4.5 越狱测试：拒绝一切不当请求

内容评分

摘要

正文

标签