微调开源 120B 模型，Brier 分数击败 GPT‑5：特朗普行为预测实证

TL;DR

使用 GRPO 算法在 2,790 条特朗普行为预测题上 gpt‑oss‑120b。
在 682 条留出测试题上，模型 Brier Score 达 0.194，优于基线模型 0.213 与 GPT‑5 的 0.200。
校准误差（ECE）为 0.079，显著低于基线 0.111 与 GPT‑5 的 0.091。
数据集已公开于 HuggingFace → https://huggingface.co/datasets/LightningRodLabs/WWTD-2025

实验设置

数据集：利用 Lightning Rod SDK 从 2025 年 1‑12 月的新闻稿中构建 2,790 条二元前瞻性问题，每题包含预测截止日期和实际结局日期，全部独立标注以避免前视偏差。

时间划分：训练集为 2025 年 1‑8 月的问题，测试集为 9‑12 月的问题。所有在 9 月 1 日之后才解决的训练样本均被剔除，以防时间泄漏。

训练细节：使用 Tinker 的训练 API，执行 50 步 GRPO（Generalized Reward‑Based Policy Optimization），配合 LoRA（rank=32，batch=32，group size=8，学习率=4e‑5），奖励信号直接采用 Brier Score。

双重评估：分别在提供新闻上下文和不提供上下文的两种情形下进行评测，检验模型在信息缺失时是否能够合理表达不确定性。

示例问题：

“特朗普是否会在 2025 年 4 月 1 日前公开呼吁美联储主席杰罗姆·鲍威尔辞职？”
“加拿大是否会在 2025 年 5 月 1 日前宣布针对美国乳制品的报复性关税？”

结果

准确性使用 Brier Score 与 Brier Skill Score（BSS）衡量，校准度使用 Expected Calibration Error（ECE）衡量。

| 模型 | 带上下文 Brier | 带上下文 BSS | 无上下文 Brier | 无上下文 BSS | 带上下文 ECE | 无上下文 ECE | |------|-------------------|------------------|-------------------|------------------|------------------|-------------------| | GPT‑5 | 0.200 | +0.14 | 0.258 | -0.11 | 0.091 | 0.191 | | gpt‑oss‑120b（基线） | 0.213 | +0.08 | 0.260 | -0.12 | 0.111 | 0.190 | | gpt‑oss‑120b RL（微调后） | 0.194 | +0.16 | 0.242 | -0.04 | 0.079 | 0.164 |

在提供新闻上下文时，模型在所有指标上均领先基线和 GPT‑5，Brier Skill Score 达 +0.16，校准误差最低（ECE=0.079）。
在缺乏上下文的情况下，GPT‑5 与基线模型的 Brier Score 均低于随机基准，而模型的 Brier Score 为 0.242，能够合理地表达不确定性。

结论通过 GRPO 与 LoRA 的结合，对开源进行针对性，可在特定预测任务上实现超越商业闭源模型（如 GPT‑5）的表现，且在校准方面有显著提升。完整数据集与实验结果已同步至 HuggingFace，欢迎社区复现与进一步探索。

数据集链接： https://huggingface.co/datasets/LightningRodLabs/WWTD-2025

微调开源 120B 模型，Brier 分数击败 GPT‑5：特朗普行为预测实证

摘要

正文

标签