人工智能Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization 1. 摘要(Abstract) 本文聚焦于 LLM-based Search Agent 的训练问题。现有方法在强化学习训练中主要面临一个核心难点credit assignment(贡献归因)。一方面,基于最终答案的 outcome supervision 虽然训练稳定,... 2小时前