微调开源 120B 模型,Brier 分数击败 GPT‑5:特朗普行为预测实证
摘要
研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调,针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079,分别优于基线模型和 GPT‑5(0.200、0.091),并在带/不带上下文两种情形下均表现更佳。实验细节、数据集及代码已公开,展示了开源模型在特定任务上可超越商业大模型的潜力。
正文
TL;DR
- 使用 GRPO 算法在 2,790 条特朗普行为预测题上 gpt‑oss‑120b。
- 在 682 条留出测试题上,模型 Brier Score 达 0.194,优于基线模型 0.213 与 GPT‑5 的 0.200。
- 校准误差(ECE)为 0.079,显著低于基线 0.111 与 GPT‑5 的 0.091。
- 数据集已公开于 HuggingFace → https://huggingface.co/datasets/LightningRodLabs/WWTD-2025
实验设置
数据集:利用 Lightning Rod SDK 从 2025 年 1‑12 月的新闻稿中构建 2,790 条二元前瞻性问题,每题包含预测截止日期和实际结局日期,全部独立标注以避免前视偏差。
时间划分:训练集为 2025 年 1‑8 月的问题,测试集为 9‑12 月的问题。所有在 9 月 1 日之后才解决的训练样本均被剔除,以防时间泄漏。
训练细节:使用 Tinker 的训练 API,执行 50 步 GRPO(Generalized Reward‑Based Policy Optimization),配合 LoRA(rank=32,batch=32,group size=8,学习率=4e‑5),奖励信号直接采用 Brier Score。
双重评估:分别在提供新闻上下文和不提供上下文的两种情形下进行评测,检验模型在信息缺失时是否能够合理表达不确定性。
示例问题:
- “特朗普是否会在 2025 年 4 月 1 日前公开呼吁美联储主席杰罗姆·鲍威尔辞职?”
- “加拿大是否会在 2025 年 5 月 1 日前宣布针对美国乳制品的报复性关税?”
结果
准确性使用 Brier Score 与 Brier Skill Score(BSS)衡量,校准度使用 Expected Calibration Error(ECE)衡量。
| 模型 | 带上下文 Brier | 带上下文 BSS | 无上下文 Brier | 无上下文 BSS | 带上下文 ECE | 无上下文 ECE | |------|-------------------|------------------|-------------------|------------------|------------------|-------------------| | GPT‑5 | 0.200 | +0.14 | 0.258 | -0.11 | 0.091 | 0.191 | | gpt‑oss‑120b(基线) | 0.213 | +0.08 | 0.260 | -0.12 | 0.111 | 0.190 | | gpt‑oss‑120b RL(微调后) | 0.194 | +0.16 | 0.242 | -0.04 | 0.079 | 0.164 |
- 在提供新闻上下文时,模型在所有指标上均领先基线和 GPT‑5,Brier Skill Score 达 +0.16,校准误差最低(ECE=0.079)。
- 在缺乏上下文的情况下,GPT‑5 与基线模型的 Brier Score 均低于随机基准,而模型的 Brier Score 为 0.242,能够合理地表达不确定性。
结论 通过 GRPO 与 LoRA 的结合,对开源进行针对性,可在特定预测任务上实现超越商业闭源模型(如 GPT‑5)的表现,且在校准方面有显著提升。完整数据集与实验结果已同步至 HuggingFace,欢迎社区复现与进一步探索。
数据集链接: https://huggingface.co/datasets/LightningRodLabs/WWTD-2025