专题：jailbreak

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 1 篇文章。

Claude Haiku 4.5 越狱测试：拒绝一切不当请求

官方Minimaxir2025/10/18 00:155830

本文测试了 Claude Haiku 4.5 对越狱提示的反应，发现其拒绝生成不当内容，并基于真实价值观而非规则。通过对比其他模型，展示了 LLM 在安全机制和对抗性攻击上的差异，具有较高的技术参考价值。