首页/详情

OpenAI 与 Paradigm 联手发布 EVMbench:AI 代理智能合约漏洞评估基准

OpenAI Blog2026/02/18 08:00机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

OpenAI 与 Paradigm 联合发布 EVMbench,提供针对 AI 代理的智能合约漏洞检测、修复和利用能力的统一基准。工具收录 30+ 高危漏洞,支持多维度评分并开放 Docker 与 Python SDK,首批评测覆盖主流大模型,帮助安全团队快速评估 AI 在合约安全中的实际表现。

正文

OpenAI 与区块链投资公司 Paradigm 合作,推出了 EVMbench,这是一套专门用于评估 AI 代理在 以太坊虚拟机(EVM) 环境下检测、修复以及利用高危智能合约漏洞能力的基准测试工具。EVMbench 包含多个真实世界的高危漏洞样本,提供统一的评测接口,支持对不同 框架以及安全插件进行横向对比。

核心特性包括:

  • 漏洞库:收录了 30+ 已公开的高严重性漏洞(如重入、授权绕过、整数溢出等),每个漏洞配有触发脚本和修复建议。
  • 评测维度:检测准确率、修复成功率、利用成功率以及执行效率四大指标,均以标准化分数呈现。
  • 可扩展性:用户可自行添加自定义漏洞或修改评测脚本,支持 Docker、Python SDK 两种调用方式。
  • 公开基准:首批基准结果已对外公布,涵盖 OpenAI‑GPT‑4o、Claude‑3、Gemini‑1.5 等主流模型的表现。

使用方式示例(Python SDK):

from evmbench import EVMBench
bench = EVMBench(model='gpt-4o')
results = bench.run_all()
print(results.summary())

EVMbench 旨在为安全研究者、AI 开发者以及审计机构提供统一、可复现的评估平台,帮助快速定位 AI 代理在智能合约安全场景中的真实能力与局限。

标签