×

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制机器之心Pro2025-06-05 18:55天津机器之心Pro2025-06-05 18:55天津导读

hqy hqy 发表于2025-06-07 00:34:30 浏览1 评论0百度已收录

抢沙发发表评论

导读
•AI导读带你速览精华
"强化学习中的熵塌缩问题揭示了性能与探索的残酷权衡:策略熵在几步训练内骤降至零,导致模型陷入低熵陷阱。研究发现熵变化由动作概率与优势度的协方差驱动,据此提出的Clip-Cov与KL-Cov方案仅需10行代码修改,即在AIME24/25等任务实现15%性能突破。"
内容由AI智能生成
有用