搜索: 多轮对话

搜索: "多轮对话"

共找到 1 篇相关文章

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

在许多大型模型及代理的训练过程中，常见的方式是仅依据结果来判断：如果最终答案正确，则给予奖励；反之则得零分。对于简单的问答任务，这种方法尚可适用；但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时，这种评价方式就显得过于简化了。因此，在差之毫厘的情况下与一开始就走错方向的情况之间，仅凭结果评判无法区分其优劣；训练过程中也无法识别出哪些失败更为关键，人工细粒度的评分又难以应对开放环境和多模态任

科技新闻2026/2/267 阅读