专题:model-calibration

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/12 21:2820

研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调,针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079,分别优于基线模型和 GPT‑5(0.200、0.091),并在带/不带上下文两种情形下均表现更佳。实验细…