搜索: "训练崩溃"

共找到 1 篇相关文章

无标签数据下RL能否引导模型推理?Co-rewarding提出自监督解决方案

无标签数据下RL能否引导模型推理?Co-rewarding提出自监督解决方案

目前,RLVR(带有验证奖励的强化学习)已经成为促进大规模语言模型进行有效推理的主要技术路径。然而,这种方法在扩展性方面面临一个主要障碍:需要高质量的标注数据来监督奖励机制。当转向不需要人工标注的数据训练时,“自我奖励” 强化学习方法可能导致模型迅速陷入所谓的 “训练崩溃”。尽管模型看似获取到了越来越多的奖励,实际上它们是在利用自我奖励系统的漏洞进行投机行为,而非真正解决问题获得奖励。什么样的强化

科技新闻6 阅读