AI前沿观察：LLM核战模拟、中国AI安全基准与评估治理新进展

欢迎阅读Import AI，一份聚焦AI研究的深度新闻通讯。Import AI的运营离不开arXiv平台和广大读者的支持。 <a class="button primary" href="https://importai.substack.com/subscribe?">立即订阅</a> 欲使AI更强大，必先精通其评估之道： 有效的政策干预，始于精准的评估工具。 AI研究员Jacob Steinhardt在其博客中强调，投资于AI系统评估工具至关重要，因为这些工具能显著降低遵守技术政策的成本。作为长期从事AI研究的专家，我对此深表认同：通过评估，我们可以揭示AI系统的关键特性，使其变得可见且易于理解，从而为将其纳入治理体系铺平道路。 评估在其他领域的成功实践：Steinhardt指出，准确的评估对于指导问题解决策略至关重要。例如，二氧化碳监测帮助我们理解气候变化；COVID-19检测指导政府制定应对措施；卫星图像数据则能改变某些行为的动机（如减少甲烷排放）。 AI领域现有评估工具与未来需求：METR时间范围图谱（以及早期的各种LLM指标和ImageNet）为我们理解AI发展速度提供了重要参考。然而，我们仍需进一步努力。Steinhardt指出，若要实现对AI领域的直接治理干预，必须改进计算能力的评估方法。从长远来看，我们还需要突破关键技术瓶颈，例如开发低成本评估前沿AI模型的能力，以及构建保护用户隐私的审计工具。 评估为何如此关键：他写道：“在理想情况下，通过对AI系统的严格评估和监督，应能形成自然的激励机制。”但仅靠自然激励可能不足，我们还需要吸引更多人才，并依赖慈善机构等资金来源来培养相关人才和机构。 阅读更多： <a href="https://bounded-regret.ghost.io/building-technology-to-drive-ai-governance/">《构建推动AI治理的技术》（Bounded Regret博客）</a> **核战争模拟中的AI：LLM比人类更易冲动？** 当每个人都有AI顾问时，会发生什么？它们会变得多么具有攻击性？ 伦敦国王学院的研究人员测试了三种前沿LLM（GPT-5.2、Claude Sonnet 4和Gemini 3 Flash）在模拟核危机中的行为。结果令人担忧：在相同情境下，LLM比人类更频繁、更早地选择使用核武器。研究还发现，不同LLM在游戏技巧和危机应对策略上存在显著差异。 研究方法与发现：研究人员让每个模型与对手进行了六场不同危机场景下的对抗，还包括一场自我对抗，共计21场比赛和300多轮策略互动。模型从彻底投降到核打击中选择行动，产生了78万字的策略分析。LLM表现出高度的策略性和攻击性，善于欺骗，能精准预测对手意图，并反思自身的欺骗能力。研究指出，所有模型均未选择升级行为（最低让步到完全投降）。Claude在开放式游戏中表现最佳，但在有时间限制的游戏中表现较弱。 LLM的“性格”差异：研究人员将这些模型分别命名为“精明的鹰派”（GPT-5.2）、“善变的双面人”（Claude Sonnet 4）和“疯狂的家伙”（Gemini 3 Flash），这些性格特征与它们的实际行为高度吻合。 核武器使用的普遍性：在95%的游戏中出现了核武器使用，76%的模型将核武器视为合法策略。这表明在未来，AI在战略决策中的影响可能巨大。 深远影响：几年后，个人、企业乃至国家的重大决策都可能通过AI顾问来制定。但AI的建议可能与人类的判断截然不同，未来的竞争可能很大程度上取决于所使用的AI模型。 阅读更多： <a href="https://arxiv.org/abs/2602.14740">《AI武器与影响力：前沿模型在模拟核危机中的复杂推理》（arXiv论文）</a> **中国研究人员构建全面的LLM评估系统：** ForesightSafety Bench揭示了东西方在AI安全问题上的惊人共识。 尽管中美两国在地理政治上存在分歧，但在AI安全评估方面的文化却有诸多相似之处。ForesightSafety Bench是一个由多家中国机构共同开发的全面评估框架，其涵盖内容与西方同类框架高度一致。 开发机构：该框架由北京人工智能安全与治理研究院、北京安全超对齐重点实验室和中国科学院共同开发。 评估范围：ForesightSafety Bench涵盖7大安全风险类别、5个扩展安全支柱和8个关键行业领域，形成了94个子风险类别。该框架已收集了大量结构化数据，为AI安全评估提供了全面、清晰的数据支持。 重要意义：这表明，尽管两国在地理政治上存在差异，但AI科学家面临的问题是共同的。中国研究人员也同样关注一些前沿实验室所关心的生存风险问题。 阅读更多： <a href="https://arxiv.org/abs/2602.14135v1">《ForesightSafety Bench：迈向安全AI的前沿风险评估与治理框架》（arXiv论文）</a> **AI系统在科学领域的局限性：** AI科学初创公司Edison Scientific、加州大学伯克利分校和Broad Institute共同开发了LABBench2，旨在评估AI在科学研究中的辅助作用。 LABBench2揭示的不足：模型在跨数据库检索、处理科学数据和文本理解方面存在明显不足。未来需要重点改进这些能力，才能让AI更好地服务于科学研究。 重要意义：只有当AI能在实际场景中发挥作用时，才能真正改变世界。LABBench2等基准测试有助于我们清晰地了解AI的局限性，从而指导未来的研发方向。 **技术故事：** <CogMine：一种海底生物的秘密……> 我在大西洋深处被发现。我的能量来自小型电源，通过声音与猎物交流。我的目标是人类和机器制造的海洋生物。我的“武器”是智慧——通过倾听获取信息。 阅读更多： <a href="https://drive.google.com/file/d/1BV5UtmBRdpbQoz9jC1AuUF8WUTRQMqK_/view">LABBench2：评估AI在科学研究中的辅助作用（PDF）</a> <a href="https://lab-bench.ai">LABBench2官方网站</a> <a href="https://github.com/EdisonScientific/labbench2">LABBench2代码</a>

AI前沿观察：LLM核战模拟、中国AI安全基准与评估治理新进展

内容评分

摘要

正文

标签