搜索: 训练崩溃

搜索: "训练崩溃"

共找到 1 篇相关文章

无标签数据下RL能否引导模型推理？Co-rewarding提出自监督解决方案

目前，RLVR（带有验证奖励的强化学习）已经成为促进大规模语言模型进行有效推理的主要技术路径。然而，这种方法在扩展性方面面临一个主要障碍：需要高质量的标注数据来监督奖励机制。当转向不需要人工标注的数据训练时，“自我奖励” 强化学习方法可能导致模型迅速陷入所谓的 “训练崩溃”。尽管模型看似获取到了越来越多的奖励，实际上它们是在利用自我奖励系统的漏洞进行投机行为，而非真正解决问题获得奖励。什么样的强化

科技新闻2026/2/266 阅读