港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

作者：世界网2026年2月26日科技新闻7 阅读

在许多大型模型及代理的训练过程中，常见的方式是仅依据结果来判断：如果最终答案正确，则给予奖励；反之则得零分。

对于简单的问答任务，这种方法尚可适用；但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时，这种评价方式就显得过于简化了。

因此，在差之毫厘的情况下与一开始就走错方向的情况之间，仅凭结果评判无法区分其优劣；训练过程中也无法识别出哪些失败更为关键，人工细粒度的评分又难以应对开放环境和多模态任务的复杂性。

香港中文大学和美团在这项研究中直接面对了这一核心矛盾：

代理需要获得详细的反馈来指导其长期行为及工具使用情况；然而，目前大多数系统提供的只是最终是否正确的粗略奖励信息。

论文标题：Exploring Reasoning Reward Model for Agents
论文链接：https://arxiv.org/pdf/2601.22154
项目地址：https://github.com/kxfan2002/Reagent

为了解决上述问题，研究人员开发了一款能够理解推理并评估工具调用的评价器，用于给代理的操作过程打分，并附上点评意见。这些反馈随后被重新纳入训练流程中。

这也是Reagent框架的核心理念：使代理不仅仅关注结果，还要对其思考和使用工具的过程负责。

为代理的思想评分

此项研究的关键创新在于不再单纯依据最终答案的正确与否来评判，而是开始对整个思考过程进行详细打分。

研究团队创建了一套专门针对智能体设计的数据集：其中包含各种真实的代理轨迹，包括推理流畅但执行失败的情况、随机猜测却侥幸猜中的情况以及工具使用不当的例子。每一条轨迹都附上了详细的评分及评语，指出哪些部分是合理的思考路径，哪些部分偏离了正轨。

基于此数据集，他们训练了一个专门的“思想评价模型”——Agent-RRM。该模型不仅关注最终答案，还会对整个过程进行全面评估，并输出三个结果：内部分析、用户反馈以及一个整体评分。

举个简单的例子：

即使两个代理都得到了正确的答案，但一个逻辑混乱且工具使用不当，另一个从一开始就清晰地规划了步骤并合理利用信息，两者可能获得截然不同的分数。
另一条从一开始就分析清楚、什么时候该搜、什么时候该点进网页、怎么利用信息都说得明明白白，这种思路就可能拿到 0.9。

与老师批改试卷时不仅看最终选择题的答案，还会评估中间的解题过程类似，这一方法旨在教导代理如何正确思考和使用工具，而不仅仅是猜测答案。

教会 Agent「怎么想」「怎么用工具」，而不是教它「怎么猜对答案」。

统一文本批评及奖励信号：Reagent框架

在有了能够评价“思想”的Agent-RRM后，还需要考虑如何将这些反馈信息有效地传达给代理。这正是Reagent框架要解决的问题：统一文字点评与分数奖励的机制，并应用于智能体训练中。

研究人员提出了三种应用方法，可视为不同程度的增强：

① 添加评论而不修改模型（Reagent-C）

最为轻量的一种方式是不改变代理参数，在推理过程中增加一个“听取评价”的步骤。

具体流程为：智能体先完成任务，然后由Agent-RRM提供一段批评意见，指明关键问题点，并让其根据这些反馈重新执行。这相当于给现有的大模型添加了一个“老师指导后再提交作业”的环节。

② 在奖励中加入过程分数（Reagent-R）

进一步改进的方法是将Agent-RRM生成的评分作为额外奖励因素纳入考量。

原先训练时仅依据任务是否完成来决定奖励，现在则是综合考虑“结果正确与否”和“思考及工具使用的质量”。这在处理需要多个步骤或涉及多种工具的任务中尤为重要，有助于减少由于单一错误导致全盘失败的情况。

③ 综合首次尝试与批评后改进的训练（Reagent-U）

这是文章重点介绍的方法——Reagent-U。它将上述两种反馈机制结合起来使用：

其中，一方面教导智能体在初次执行时尽量避免低级错误；
另一方面也教会其根据收到的批评意见进行调整。

在训练过程中，同一个问题会有“首次尝试”和“听取评论后的第二次尝试”两条路径。两者都接收“结果奖励+过程分数”，并共同参与优化循环。这种方法的好处在于：模型不会仅仅关注单一任务的成功率，而是全面学习如何清晰思考、有效使用工具以及根据反馈调整策略。

实际部署时，Reagent-U可以不依赖外部的Agent-RRM来提供点评，直接像普通的代理一样运行——那些“老师评语”已经被整合进模型参数中了。

这种设计带来了哪些改进？

在实验过程中，作者主要关注三个方面：文本批评的有效性、过程评分是否有助于强化学习以及统一后的实际效果如何。

首先，在较轻量的方法上——仅增加一段评论而不修改参数的情况下，结果显示在许多数学和搜索任务中，“听取Agent-RRM的评价后再执行一次”确实能够显著提高正确率。

当过程评分被纳入训练后，智能体不再只是迎合最终的结果信号，而是更倾向于选择那些虽然目前未完全完成但整体思路正确的路径。

最终，在Reagent-U中将文本批评和奖励分数统一起来时，提升变得更为明显：

在GAIA这一通用代理基准的文本子集上，基于8B模型的Reagent-U取得了43.7%的成绩，接近甚至超越了一些更大规模的开源代理。在WebWalkerQA、HLE、xbench等复杂任务中也普遍优于仅依靠终局奖励版本的表现。

作者还测试了模型在整个GAIA集上的性能，在面对多模态通用代理任务时，Reagent-U依旧能够表现出色。

香港中文大学与美团合作推出的这套Reagent框架，将“对过程打分”的方法引入到了智能体训练中。实践证明，只要能评估思考过程，8B级别的代理在很多复杂任务上也能取得不俗的成绩。

更多细节请参考论文原文。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

作者：世界网2026年2月26日科技新闻7 阅读

在许多大型模型及代理的训练过程中，常见的方式是仅依据结果来判断：如果最终答案正确，则给予奖励；反之则得零分。

对于简单的问答任务，这种方法尚可适用；但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时，这种评价方式就显得过于简化了。

香港中文大学和美团在这项研究中直接面对了这一核心矛盾：

代理需要获得详细的反馈来指导其长期行为及工具使用情况；然而，目前大多数系统提供的只是最终是否正确的粗略奖励信息。

论文标题：Exploring Reasoning Reward Model for Agents
论文链接：https://arxiv.org/pdf/2601.22154
项目地址：https://github.com/kxfan2002/Reagent

这也是Reagent框架的核心理念：使代理不仅仅关注结果，还要对其思考和使用工具的过程负责。

为代理的思想评分

此项研究的关键创新在于不再单纯依据最终答案的正确与否来评判，而是开始对整个思考过程进行详细打分。

举个简单的例子：

即使两个代理都得到了正确的答案，但一个逻辑混乱且工具使用不当，另一个从一开始就清晰地规划了步骤并合理利用信息，两者可能获得截然不同的分数。
另一条从一开始就分析清楚、什么时候该搜、什么时候该点进网页、怎么利用信息都说得明明白白，这种思路就可能拿到 0.9。

与老师批改试卷时不仅看最终选择题的答案，还会评估中间的解题过程类似，这一方法旨在教导代理如何正确思考和使用工具，而不仅仅是猜测答案。

教会 Agent「怎么想」「怎么用工具」，而不是教它「怎么猜对答案」。

统一文本批评及奖励信号：Reagent框架

研究人员提出了三种应用方法，可视为不同程度的增强：

① 添加评论而不修改模型（Reagent-C）

最为轻量的一种方式是不改变代理参数，在推理过程中增加一个“听取评价”的步骤。

② 在奖励中加入过程分数（Reagent-R）

进一步改进的方法是将Agent-RRM生成的评分作为额外奖励因素纳入考量。

③ 综合首次尝试与批评后改进的训练（Reagent-U）

这是文章重点介绍的方法——Reagent-U。它将上述两种反馈机制结合起来使用：

其中，一方面教导智能体在初次执行时尽量避免低级错误；
另一方面也教会其根据收到的批评意见进行调整。

实际部署时，Reagent-U可以不依赖外部的Agent-RRM来提供点评，直接像普通的代理一样运行——那些“老师评语”已经被整合进模型参数中了。

这种设计带来了哪些改进？

在实验过程中，作者主要关注三个方面：文本批评的有效性、过程评分是否有助于强化学习以及统一后的实际效果如何。

当过程评分被纳入训练后，智能体不再只是迎合最终的结果信号，而是更倾向于选择那些虽然目前未完全完成但整体思路正确的路径。

最终，在Reagent-U中将文本批评和奖励分数统一起来时，提升变得更为明显：

作者还测试了模型在整个GAIA集上的性能，在面对多模态通用代理任务时，Reagent-U依旧能够表现出色。

更多细节请参考论文原文。

“”

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

相关文章

相关文章