OpenAI 与 Paradigm 联手发布 EVMbench：AI 代理智能合约漏洞评估基准

OpenAI 与区块链投资公司 Paradigm 合作，推出了 EVMbench，这是一套专门用于评估 AI 代理在 以太坊虚拟机（EVM） 环境下检测、修复以及利用高危智能合约漏洞能力的基准测试工具。EVMbench 包含多个真实世界的高危漏洞样本，提供统一的评测接口，支持对不同、框架以及安全插件进行横向对比。

核心特性包括：

漏洞库：收录了 30+ 已公开的高严重性漏洞（如重入、授权绕过、整数溢出等），每个漏洞配有触发脚本和修复建议。
评测维度：检测准确率、修复成功率、利用成功率以及执行效率四大指标，均以标准化分数呈现。
可扩展性：用户可自行添加自定义漏洞或修改评测脚本，支持 Docker、Python SDK 两种调用方式。
公开基准：首批基准结果已对外公布，涵盖 OpenAI‑GPT‑4o、Claude‑3、Gemini‑1.5 等主流模型的表现。

使用方式示例（Python SDK）：

from evmbench import EVMBench
bench = EVMBench(model='gpt-4o')
results = bench.run_all()
print(results.summary())

EVMbench 旨在为安全研究者、AI 开发者以及审计机构提供统一、可复现的评估平台，帮助快速定位 AI 代理在智能合约安全场景中的真实能力与局限。

OpenAI 与 Paradigm 联手发布 EVMbench：AI 代理智能合约漏洞评估基准

内容评分

摘要

正文

标签