搜索: "稀疏奖励"

共找到 2 篇相关文章

谷歌新举措能否破解智能算法的瓶颈问题？

新智元报道传统的人工智能模型在稀疏奖励的环境中往往难以学会分层思考，因为激励机制不足。近日，谷歌团队通过引入元控制器来操控模型内部残差流，使智能体具备了“跳跃式思维”的能力。这项研究揭示了大型模型内部可以自发形成类似人脑的层次化决策结构，为人工智能在复杂多步任务中的训练提供了新的方法。人们普遍认为，AI智能体面临的主要挑战是计算资源不足？实际上，真正的问题在于奖励过于稀疏以及路径过长。在稀疏奖励和

科技新闻2026/2/270 阅读

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

在许多大型模型及代理的训练过程中，常见的方式是仅依据结果来判断：如果最终答案正确，则给予奖励；反之则得零分。对于简单的问答任务，这种方法尚可适用；但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时，这种评价方式就显得过于简化了。因此，在差之毫厘的情况下与一开始就走错方向的情况之间，仅凭结果评判无法区分其优劣；训练过程中也无法识别出哪些失败更为关键，人工细粒度的评分又难以应对开放环境和多模态任

科技新闻2026/2/267 阅读