1. 摘要(Abstract)
本文研究的是长程交互型 LLM Agent 的训练问题,核心关注点是稀疏延迟奖励下的贡献归因。随着大语言模型从静态文本生成逐渐走向环境交互,LLM Agent 需要在网页购物、虚拟实验、家居任务等复杂环境中进行连续决策。然而,这类任务通常只有在整个 episode 结束后才给出最终奖励,中间步骤缺少明确监督,导致模型很难判断哪一步真正推动了任务成功,哪一步造成了失败。
针对这一问题,论文提出 Q-Evolve,一种面向 LLM Agent 的自进化训练框架。它的核心思想是将过程奖励自动标注和策略学习统一到同一个 in-distribution learning loop 中。具体而言,Q-Evolve 首先使用专家轨迹对模型进行行为克隆预热,然后收集模型自身与环境交互产生的轨迹,并将专家数据和自生成数据合并成 hybrid offline dataset。在此基础上,框架训练一个 in-distribution critic,通过 weighted Implicit Q-Learning 将终局奖励向前传播,得到更可靠的 step-wise process rewards。最后,模型再利用这些过程奖励,通过 behavior-proximal policy optimization 更新策略。
这篇论文的关键创新不在于简单增加一个奖励模型,而在于强调过程奖励必须在同一数据分布内被生成和使用。作者指出,传统 PRM 方法容易出现 distribution shift,即奖励模型训练时看到的数据和策略优化时产生的数据不一致,导致中间反馈失真。Q-Evolve 则通过让 policy、critic 和 dataset 在同一闭环中共同演化,减少这种分布错位,使 agent 能够稳定自我改进。
实验方面,论文在 AlfWorld、WebShop 和 ScienceWorld 三个长程交互任务上进行评估。结果显示,Q-Evolve 在总体性能、样本效率和泛化能力上均优于多种强基线方法。尤其在 AlfWorld 上,Q-Evolve 用约 13K 环境步数就超过了多个使用 320K 环境步数的 online RL 方法,体现出较强的样本效率。整体来看,该工作为 LLM Agent 的长期决策训练提供了一种较稳健的自进化路径,也进一步说明过程级监督和策略学习需要放在统一分布中共同设计。

2. 研究背景与问题动机(Introduction)
近年来,大语言模型已经不再只是文本生成器,而是逐渐成为交互式 agent 的控制器。LLM Agent 可以通过自然语言进行推理、规划和环境交互,因此被用于导航、游戏、网页操作、机器人控制等任务。与普通问答不同,交互式任务要求模型连续观察环境、选择动作、接收反馈,并在多个步骤后完成目标。这类任务更接近真实世界的智能体问题,也更能体现大模型从语言能力走向行动能力的趋势。
但长程交互任务的训练难度很高。最重要的问题是反馈稀疏且延迟。Agent 往往要执行很多步之后,才在 episode 结束时得到成功或失败的奖励。这样一来,模型只能知道最终结果,却不知道中间哪一步是关键贡献,哪一步是无效动作。对于长程任务而言,这会严重影响学习效率,因为一个失败轨迹可能包含一些合理步骤,一个成功轨迹也可能包含一些冗余动作。如果训练方法不能拆解这些中间贡献,就很难真正提升 agent 的决策质量。
现有方法大致有几类。一类是行为克隆或监督微调,主要模仿专家轨迹,优点是稳定,但缺点是无法从模型自己的错误中持续改进。另一类是 online RL,例如 PPO 或 GRPO,它们可以利用环境交互进行学习,但通常需要大量采样,而且没有专门解决稀疏奖励下的过程级归因。还有一类是 PRM 或搜索式方法,通过人工标注或在线搜索生成 step-level rewards,但这些方法往往成本高,并且容易出现奖励模型和策略分布不一致的问题。
本文的问题意识正是在这里。作者认为,长程 LLM Agent 的关键难点不是单纯缺少奖励,而是过程奖励的可靠性依赖数据分布。如果一个 PRM 只在某些轨迹上训练,却被拿去评价策略优化后产生的新状态和新动作,它给出的分数就可能不可靠。因此,Q-Evolve 试图解决一个更根本的问题,即如何在同一分布内生成过程监督,并在同一分布内完成策略改进。
3. 方法整体框架(Framework Overview)
Q-Evolve 的整体框架可以理解为一个自进化闭环。第一步是行为克隆预热。作者先使用专家数据训练一个初始 agent,使模型具备基本任务执行能力。第二步是自生成数据收集。预热后的 agent 与环境交互,产生自己的成功和失败轨迹。第三步是构建 hybrid offline dataset。该数据集同时包含专家轨迹和 agent 自己生成的轨迹,因此既有高质量成功示范,也有模型真实分布下的错误样本。第四步是在该数据集上训练 in-distribution critic,并由 critic 推导 step-wise process rewards。第五步是利用这些过程奖励更新策略。更新后的策略再去环境中生成新轨迹,进入下一轮演化。
这个框架的关键在于 hybrid data。专家数据可以提供成功任务路径,帮助 critic 获得可靠的高价值信号。自生成数据则反映当前 agent 真正会遇到的状态和动作,包括无效动作、格式错误、重复动作和局部合理但最终失败的行为。两类数据结合后,过程奖励不再只服务于专家分布,而是能覆盖模型自身的行为分布。
另一个关键点是 in-distribution。Q-Evolve 并不是先训练一个静态 PRM,再让 policy 到新分布中自由探索,而是在每一轮演化中都把 critic learning、process reward labeling 和 policy learning 约束在同一个 hybrid dataset 内。这样做可以降低分布偏移风险,使奖励标注和策略更新互相匹配。
因此,Q-Evolve 本质上不是一个单轮训练算法,而是一个 policy、critic 和 dataset 共同演化的系统。每一轮更新都比较保守,避免离开当前数据支持范围,但多轮迭代后又能逐步提升 agent 的长程任务能力。

4. 核心方法(Methodology)
Q-Evolve 的核心方法可以分成四个部分。
第一部分是行为克隆预热。作者使用专家轨迹训练初始策略,让 agent 学会基本任务格式和操作模式。对于长程交互任务,这一步很重要,因为完全随机探索很难获得成功轨迹,也很难为后续 critic learning 提供有效信号。行为克隆虽然不能解决最终的自进化问题,但可以为后续训练提供一个可用的起点。
第二部分是 hybrid data construction 和 retrospective reward labeling。作者将专家轨迹和 self-collected rollouts 合并为一个离线数据集。随后,系统根据环境返回的文本反馈,对每一步进行规则化回看标注。例如,如果动作格式错误,会给出负奖励。如果动作不被环境接受,也会给出负奖励。如果动作执行后 observation 没有变化,则说明可能是无意义重复操作,也会被惩罚。这些辅助信号不需要人工标注,也不需要环境回溯,比较适合实际交互场景。
第三部分是 in-distribution critic learning。作者采用 weighted Implicit Q-Learning 来训练 critic。普通 Bellman backup 理论上可以把终局奖励向前传播,但在稀疏奖励任务中容易被大量零奖励和失败轨迹淹没。因此,Q-Evolve 对不同样本进行加权,更重视成功轨迹和靠近终点的步骤。这样可以让 critic 更稳定地学习哪些中间行为更可能带来最终成功。
第四部分是 process reward estimation 和 policy optimization。训练好 critic 后,作者不直接使用简单的 Q minus V 作为过程奖励,而是通过 GAE 估计 step-wise advantages。这样可以获得更平滑、更可靠的过程奖励。随后,模型使用 behavior-proximal policy optimization 更新策略。与普通 advantage weighted regression 不同,BPPO 不只是提高好动作的概率,还会显式压低负优势动作的概率,因此更适合纠正长程任务中的错误行为。
整体来看,Q-Evolve 的方法设计比较克制。它没有让 policy 在未知分布中大幅跳跃,而是在已有数据支持范围内逐步改进。这种设计虽然看起来不激进,但正好符合长程交互任务中稳定性和安全性的要求。

5. 实验设置(Experimental Setup)
论文在三个长程交互环境上进行实验,分别是 AlfWorld、WebShop 和 ScienceWorld。AlfWorld 是文本化家居任务环境,agent 需要通过较长动作序列完成 household tasks,最终只得到成功或失败的二值奖励。WebShop 是网页购物任务,agent 需要根据目标需求浏览商品并选择购买,最终奖励取决于购买商品是否满足属性要求。ScienceWorld 是虚拟科学实验环境,agent 需要完成包含多个子目标的科学任务,最终根据任务完成情况获得稀疏奖励。
模型方面,作者主要使用 Llama2-7B-Chat 构建 agent,并在后续实验中进一步验证方法能迁移到 Llama-3-8B-Instruct。对于 self-collected data,作者让 agent 在每个任务上采样多条轨迹,用于构建混合离线数据集。
基线方法覆盖较全面,包括 GPT-3.5-Turbo、GPT-4、Reflexion、SFT、RFT、PPO、Best-of-N、ETO、DMPO 和 QLASS。其中 QLASS 是一个比较强的 value-based agent 方法,通过搜索树估计 Q-value 来指导推理和动作选择。因此,Q-Evolve 与 QLASS 的比较尤其关键,因为两者都关注 value signal 和过程级指导,但 Q-Evolve 更强调 in-distribution learning 和样本效率。
评价指标方面,论文报告各环境中的平均累计奖励,并在 ScienceWorld 和 AlfWorld 上区分 seen 和 unseen 任务,以检验模型是否只是记住训练任务,还是能泛化到未见场景。

6. 实验结果与性能分析(Experiments)
主结果显示,Q-Evolve 在所有任务上的平均表现最好。根据 Table 2,Q-Evolve 的平均分达到 79.4,高于 QLASS 的 74.5,也明显高于 ETO、Best-of-N、RFT 和 SFT 等方法。尤其在 AlfWorld 上,Q-Evolve 在 seen 和 unseen split 上分别达到 90.7 和 89.6,显著超过其他方法。这说明它不仅能提升已见任务表现,也能在未见任务上保持较强泛化能力。
与 QLASS 相比,Q-Evolve 的优势不只是分数更高,还体现在样本效率上。QLASS 需要大量在线搜索和 rollout 来估计 Q-values,而 Q-Evolve 主要依赖 hybrid offline dataset 和 in-distribution critic learning,在较少环境交互下就能获得更强效果。这个结果说明,对于长程 agent 训练而言,不一定要靠大量 online exploration,更关键的是如何稳定地把稀疏终局奖励转化为可靠的过程监督。
消融实验进一步说明了各个模块的重要性。Table 3 显示,去掉 retrospective relabeling、weighted IQL、GAE 或 policy improvement 都会带来性能下降。其中去掉 GAE 后下降较明显,说明高质量 advantage estimation 是过程奖励可靠性的关键。去掉 policy improvement 后性能下降更严重,说明仅有 critic 或过程奖励还不够,必须通过合适的策略优化方法把这些信号转化为 agent 行为提升。
论文还比较了不同过程奖励选择。Table 4 显示,直接使用 Q minus V 或 potential-based shaping 的效果都不如 GAE with environmental reward。作者进一步发现,将辅助奖励直接加入 GAE 反而会损害表现。这说明辅助奖励适合帮助 critic 训练和错误识别,但最终策略优化仍应与真实任务目标保持一致。
在自进化效果方面,Figure 3 展示了从 BC 到 Iter 1 再到 Iter 2 的连续提升。多个任务上,第二轮演化相较第一轮继续提高,说明 Q-Evolve 不是一次性提升,而是真正能够通过数据刷新、critic 重学和策略再优化实现稳定迭代改进。
样本效率实验也很有说服力。Table 5 显示,在 AlfWorld 上,Q-Evolve 只使用 13K 环境步数,就超过了使用 320K 环境步数的 PPO、RLOO、GRPO 及其 SFT 变体。这个结果说明,在稀疏奖励长程任务中,单纯增加 online RL 采样并不一定高效,合理的过程奖励生成和 in-distribution policy learning 可能更加关键。
最后,Table 6 使用 Llama-3-8B-Instruct 进一步验证模型泛化性。Q-Evolve 在 WebShop、ScienceWorld 和 AlfWorld 上都优于 SFT、ETO、KnowAgent、WKM 和 ETO plus MPO 等方法,说明该框架不是只对某一个 base model 有效,而是具有一定架构和规模迁移能力。





7. 贡献与结论(Conclusion)
本文的主要贡献包括以下几个方面。
第一,提出 Q-Evolve,将自动过程奖励标注和策略学习统一到一个 in-distribution self-evolving framework 中。相比传统 PRM pipeline,它更重视过程奖励和策略优化之间的数据分布一致性。
第二,设计 hybrid offline dataset,将专家示范和 agent 自生成轨迹结合起来。专家数据提供成功路径和高质量指导,自生成数据暴露模型真实错误和行为分布,两者共同提升 critic learning 的稳定性。
第三,引入 weighted IQL 和 GAE,将稀疏终局奖励转化为 step-wise process rewards。这样既避免人工逐步标注,也不需要环境回溯或大量在线搜索。
第四,采用 behavior-proximal policy optimization,在数据支持范围内进行保守策略更新。该方法不仅强化正优势动作,也压低负优势动作,有助于纠正长程决策中的错误行为。
第五,在 AlfWorld、WebShop 和 ScienceWorld 上取得稳定提升,并在样本效率和跨模型泛化方面表现突出。
从研究意义来看,这篇论文的重点不是单纯提出一个更强的 agent,而是回答了长程 LLM Agent 训练中的一个基础问题,即在只有终局奖励的情况下,如何可靠地生成过程监督,并让 agent 在不严重偏离数据分布的前提下持续自我改进。Q-Evolve 的答案是让 policy、critic 和 dataset 共同演化,同时保证每一轮更新仍然在当前数据分布内完成。
整体来看,该工作对 LLM Agent 的训练有较强参考价值。它把 self-evolving agent 从概念层面推进到了一个更具体的强化学习框架中,也说明未来 agent 训练不能只关注最终任务成功率,还需要关注过程奖励的可靠性、数据分布的一致性和策略更新的稳定性。