基于PPO算法的语言模型树搜索蒸馏技术解析原文社区Hacker News2026/03/15 08:514740• 结合PPO与树搜索优化训练• 利用蒸馏技术指导参数更新本文提出一种结合树搜索与蒸馏的PPO语言模型训练方法,通过高效探索参数空间和利用模型差异指导更新,显著提升训练效率,同时保持模型性能。近端策略优化树搜索知识蒸馏语言模型训练优化