Claude Haiku 4.5 越狱测试:拒绝一切不当请求原文官方Minimaxir2025/10/18 00:155830本文测试了 Claude Haiku 4.5 对越狱提示的反应,发现其拒绝生成不当内容,并基于真实价值观而非规则。通过对比其他模型,展示了 LLM 在安全机制和对抗性攻击上的差异,具有较高的技术参考价值。越狱测试LLM安全机制提示工程优化强化学习‑人类反馈AI伦理