强化学习效率远低于预期:信息密度与方差的双重挑战原文官方Dwarkesh Patel2025/11/18 00:544740本文分析了强化学习在信息效率上的不足,指出其信息密度低和训练初期方差大的问题,强调RL与监督学习在获取有效信息上的本质差异,并提出提升效率的潜在方向。强化学习信息效率训练方差深度学习AI研究