专题：model-calibration

微调开源 120B 模型，Brier 分数击败 GPT‑5：特朗普行为预测实证

社区Reddit r/LocalLLaMA2026/02/12 21:2820

研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调，针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079，分别优于基线模型和 GPT‑5（0.200、0.091），并在带/不带上下文两种情形下均表现更佳。实验细…

模型微调生成式强化编程 LoRA微调 Brier 分数模型校准