导读 •AI导读带你速览精华 "强化学习中的熵塌缩问题揭示了性能与探索的残酷权衡:策略熵在几步训练内骤降至零,导致模型陷入低熵陷阱。研究发现熵变化由动作概率与优势度的协方差驱动,据此提出的Clip-Cov与KL-Cov方案仅需10行代码修改,即在AIME24/25等任务实现15%性能突破。" 内容由AI智能生成 有用