搜索: "多轮对话"

共找到 1 篇相关文章

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

在许多大型模型及代理的训练过程中,常见的方式是仅依据结果来判断:如果最终答案正确,则给予奖励;反之则得零分。对于简单的问答任务,这种方法尚可适用;但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时,这种评价方式就显得过于简化了。因此,在差之毫厘的情况下与一开始就走错方向的情况之间,仅凭结果评判无法区分其优劣;训练过程中也无法识别出哪些失败更为关键,人工细粒度的评分又难以应对开放环境和多模态任

科技新闻7 阅读