Self-evolving LLM Agents with In-distribution Optimization

1. 摘要（Abstract）

本文研究的是长程交互型 LLM Agent 的训练问题，核心关注点是稀疏延迟奖励下的贡献归因。随着大语言模型从静态文本生成逐渐走向环境交互，LLM Agent 需要在网页购物、虚拟实验、家居任务等复杂环境中进行连续决策。然而，这类任务通常只有在整个 episode 结束后才给出最终奖励，中间步骤缺少明确监督，导致模型很难判断哪一步真正推动了任务成功，哪一步造成了失败。

针对这一问题，论文提出 Q-Evolve，一种面向 LLM Agent 的自进化训练框架。它的核心思想是将过程奖励自动标注和策略学习统一到同一个 in-distribution learning loop 中。具体而言，Q-Evolve 首先使用专家轨迹对模型进行行为克隆预热，然后收集模型自身与环境交互产生的轨迹，并将专家数据和自生成数据合并成 hybrid offline dataset。在此基础上，框架训练一个 in-distribution critic，通过 weighted Implicit Q-Learning 将终局奖励向前传播，得到更可靠的 step-wise process rewards。最后，模型再利用这些过程奖励，通过 behavior-proximal policy optimization 更新策略。

这篇论文的关键创新不在于简单增加一个奖励模型，而在于强调过程奖励必须在同一数据分布内被生成和使用。作者指出，传统 PRM 方法容易出现 distribution shift，即奖励模型训练时看到的数据和策略优化时产生的数据不一致，导致中间反馈失真。Q-Evolve 则通过让 policy、critic 和 dataset 在同一闭环中共同演化，减少这种分布错位，使 agent 能够稳定自我改进。

实验方面，论文在 AlfWorld、WebShop 和 ScienceWorld 三个长程交互任务上进行评估。结果显示，Q-Evolve 在总体性能、样本效率和泛化能力上均优于多种强基线方法。尤其在 AlfWorld 上，Q-Evolve 用约 13K 环境步数就超过了多个使用 320K 环境步数的 online RL 方法，体现出较强的样本效率。整体来看，该工作为 LLM Agent 的长期决策训练提供了一种较稳健的自进化路径，也进一步说明过程级监督和策略学习需要放在统一分布中共同设计。

Self-evolving LLM Agents with In-distribution Optimization插图

2. 研究背景与问题动机（Introduction）

近年来，大语言模型已经不再只是文本生成器，而是逐渐成为交互式 agent 的控制器。LLM Agent 可以通过自然语言进行推理、规划和环境交互，因此被用于导航、游戏、网页操作、机器人控制等任务。与普通问答不同，交互式任务要求模型连续观察环境、选择动作、接收反馈，并在多个步骤后完成目标。这类任务更接近真实世界的智能体问题，也更能体现大模型从语言能力走向行动能力的趋势。

但长程交互任务的训练难度很高。最重要的问题是反馈稀疏且延迟。Agent 往往要执行很多步之后，才在 episode 结束时得到成功或失败的奖励。这样一来，模型只能知道最终结果，却不知道中间哪一步是关键贡献，哪一步是无效动作。对于长程任务而言，这会严重影响学习效率，因为一个失败轨迹可能包含一些合理步骤，一个成功轨迹也可能包含一些冗余动作。如果训练方法不能拆解这些中间贡献，就很难真正提升 agent 的决策质量。

现有方法大致有几类。一类是行为克隆或监督微调，主要模仿专家轨迹，优点是稳定，但缺点是无法从模型自己的错误中持续改进。另一类是 online RL，例如 PPO 或 GRPO，它们可以利用环境交互进行学习，但通常需要大量采样，而且没有专门解决稀疏奖励下的过程级归因。还有一类是 PRM 或搜索式方法，通过人工标注或在线搜索生成 step-level rewards，但这些方法往往成本高，并且容易出现奖励模型和策略分布不一致的问题。

本文的问题意识正是在这里。作者认为，长程 LLM Agent 的关键难点不是单纯缺少奖励，而是过程奖励的可靠性依赖数据分布。如果一个 PRM 只在某些轨迹上训练，却被拿去评价策略优化后产生的新状态和新动作，它给出的分数就可能不可靠。因此，Q-Evolve 试图解决一个更根本的问题，即如何在同一分布内生成过程监督，并在同一分布内完成策略改进。

3. 方法整体框架（Framework Overview）

Q-Evolve 的整体框架可以理解为一个自进化闭环。第一步是行为克隆预热。作者先使用专家数据训练一个初始 agent，使模型具备基本任务执行能力。第二步是自生成数据收集。预热后的 agent 与环境交互，产生自己的成功和失败轨迹。第三步是构建 hybrid offline dataset。该数据集同时包含专家轨迹和 agent 自己生成的轨迹，因此既有高质量成功示范，也有模型真实分布下的错误样本。第四步是在该数据集上训练 in-distribution critic，并由 critic 推导 step-wise process rewards。第五步是利用这些过程奖励更新策略。更新后的策略再去环境中生成新轨迹，进入下一轮演化。

这个框架的关键在于 hybrid data。专家数据可以提供成功任务路径，帮助 critic 获得可靠的高价值信号。自生成数据则反映当前 agent 真正会遇到的状态和动作，包括无效动作、格式错误、重复动作和局部合理但最终失败的行为。两类数据结合后，过程奖励不再只服务于专家分布，而是能覆盖模型自身的行为分布。

另一个关键点是 in-distribution。Q-Evolve 并不是先训练一个静态 PRM，再让 policy 到新分布中自由探索，而是在每一轮演化中都把 critic learning、process reward labeling 和 policy learning 约束在同一个 hybrid dataset 内。这样做可以降低分布偏移风险，使奖励标注和策略更新互相匹配。

因此，Q-Evolve 本质上不是一个单轮训练算法，而是一个 policy、critic 和 dataset 共同演化的系统。每一轮更新都比较保守，避免离开当前数据支持范围，但多轮迭代后又能逐步提升 agent 的长程任务能力。

Self-evolving LLM Agents with In-distribution Optimization插图1

4. 核心方法（Methodology）

Q-Evolve 的核心方法可以分成四个部分。

第一部分是行为克隆预热。作者使用专家轨迹训练初始策略，让 agent 学会基本任务格式和操作模式。对于长程交互任务，这一步很重要，因为完全随机探索很难获得成功轨迹，也很难为后续 critic learning 提供有效信号。行为克隆虽然不能解决最终的自进化问题，但可以为后续训练提供一个可用的起点。

第二部分是 hybrid data construction 和 retrospective reward labeling。作者将专家轨迹和 self-collected rollouts 合并为一个离线数据集。随后，系统根据环境返回的文本反馈，对每一步进行规则化回看标注。例如，如果动作格式错误，会给出负奖励。如果动作不被环境接受，也会给出负奖励。如果动作执行后 observation 没有变化，则说明可能是无意义重复操作，也会被惩罚。这些辅助信号不需要人工标注，也不需要环境回溯，比较适合实际交互场景。

第三部分是 in-distribution critic learning。作者采用 weighted Implicit Q-Learning 来训练 critic。普通 Bellman backup 理论上可以把终局奖励向前传播，但在稀疏奖励任务中容易被大量零奖励和失败轨迹淹没。因此，Q-Evolve 对不同样本进行加权，更重视成功轨迹和靠近终点的步骤。这样可以让 critic 更稳定地学习哪些中间行为更可能带来最终成功。

第四部分是 process reward estimation 和 policy optimization。训练好 critic 后，作者不直接使用简单的 Q minus V 作为过程奖励，而是通过 GAE 估计 step-wise advantages。这样可以获得更平滑、更可靠的过程奖励。随后，模型使用 behavior-proximal policy optimization 更新策略。与普通 advantage weighted regression 不同，BPPO 不只是提高好动作的概率，还会显式压低负优势动作的概率，因此更适合纠正长程任务中的错误行为。

整体来看，Q-Evolve 的方法设计比较克制。它没有让 policy 在未知分布中大幅跳跃，而是在已有数据支持范围内逐步改进。这种设计虽然看起来不激进，但正好符合长程交互任务中稳定性和安全性的要求。

Self-evolving LLM Agents with In-distribution Optimization插图2

5. 实验设置（Experimental Setup）

论文在三个长程交互环境上进行实验，分别是 AlfWorld、WebShop 和 ScienceWorld。AlfWorld 是文本化家居任务环境，agent 需要通过较长动作序列完成 household tasks，最终只得到成功或失败的二值奖励。WebShop 是网页购物任务，agent 需要根据目标需求浏览商品并选择购买，最终奖励取决于购买商品是否满足属性要求。ScienceWorld 是虚拟科学实验环境，agent 需要完成包含多个子目标的科学任务，最终根据任务完成情况获得稀疏奖励。

模型方面，作者主要使用 Llama2-7B-Chat 构建 agent，并在后续实验中进一步验证方法能迁移到 Llama-3-8B-Instruct。对于 self-collected data，作者让 agent 在每个任务上采样多条轨迹，用于构建混合离线数据集。

基线方法覆盖较全面，包括 GPT-3.5-Turbo、GPT-4、Reflexion、SFT、RFT、PPO、Best-of-N、ETO、DMPO 和 QLASS。其中 QLASS 是一个比较强的 value-based agent 方法，通过搜索树估计 Q-value 来指导推理和动作选择。因此，Q-Evolve 与 QLASS 的比较尤其关键，因为两者都关注 value signal 和过程级指导，但 Q-Evolve 更强调 in-distribution learning 和样本效率。

评价指标方面，论文报告各环境中的平均累计奖励，并在 ScienceWorld 和 AlfWorld 上区分 seen 和 unseen 任务，以检验模型是否只是记住训练任务，还是能泛化到未见场景。

Self-evolving LLM Agents with In-distribution Optimization插图3

6. 实验结果与性能分析（Experiments）

主结果显示，Q-Evolve 在所有任务上的平均表现最好。根据 Table 2，Q-Evolve 的平均分达到 79.4，高于 QLASS 的 74.5，也明显高于 ETO、Best-of-N、RFT 和 SFT 等方法。尤其在 AlfWorld 上，Q-Evolve 在 seen 和 unseen split 上分别达到 90.7 和 89.6，显著超过其他方法。这说明它不仅能提升已见任务表现，也能在未见任务上保持较强泛化能力。

与 QLASS 相比，Q-Evolve 的优势不只是分数更高，还体现在样本效率上。QLASS 需要大量在线搜索和 rollout 来估计 Q-values，而 Q-Evolve 主要依赖 hybrid offline dataset 和 in-distribution critic learning，在较少环境交互下就能获得更强效果。这个结果说明，对于长程 agent 训练而言，不一定要靠大量 online exploration，更关键的是如何稳定地把稀疏终局奖励转化为可靠的过程监督。

消融实验进一步说明了各个模块的重要性。Table 3 显示，去掉 retrospective relabeling、weighted IQL、GAE 或 policy improvement 都会带来性能下降。其中去掉 GAE 后下降较明显，说明高质量 advantage estimation 是过程奖励可靠性的关键。去掉 policy improvement 后性能下降更严重，说明仅有 critic 或过程奖励还不够，必须通过合适的策略优化方法把这些信号转化为 agent 行为提升。

论文还比较了不同过程奖励选择。Table 4 显示，直接使用 Q minus V 或 potential-based shaping 的效果都不如 GAE with environmental reward。作者进一步发现，将辅助奖励直接加入 GAE 反而会损害表现。这说明辅助奖励适合帮助 critic 训练和错误识别，但最终策略优化仍应与真实任务目标保持一致。

在自进化效果方面，Figure 3 展示了从 BC 到 Iter 1 再到 Iter 2 的连续提升。多个任务上，第二轮演化相较第一轮继续提高，说明 Q-Evolve 不是一次性提升，而是真正能够通过数据刷新、critic 重学和策略再优化实现稳定迭代改进。

样本效率实验也很有说服力。Table 5 显示，在 AlfWorld 上，Q-Evolve 只使用 13K 环境步数，就超过了使用 320K 环境步数的 PPO、RLOO、GRPO 及其 SFT 变体。这个结果说明，在稀疏奖励长程任务中，单纯增加 online RL 采样并不一定高效，合理的过程奖励生成和 in-distribution policy learning 可能更加关键。

最后，Table 6 使用 Llama-3-8B-Instruct 进一步验证模型泛化性。Q-Evolve 在 WebShop、ScienceWorld 和 AlfWorld 上都优于 SFT、ETO、KnowAgent、WKM 和 ETO plus MPO 等方法，说明该框架不是只对某一个 base model 有效，而是具有一定架构和规模迁移能力。

Self-evolving LLM Agents with In-distribution Optimization插图4

Self-evolving LLM Agents with In-distribution Optimization插图5

Self-evolving LLM Agents with In-distribution Optimization插图6

Self-evolving LLM Agents with In-distribution Optimization插图7

Self-evolving LLM Agents with In-distribution Optimization插图8

7. 贡献与结论（Conclusion）

本文的主要贡献包括以下几个方面。

第一，提出 Q-Evolve，将自动过程奖励标注和策略学习统一到一个 in-distribution self-evolving framework 中。相比传统 PRM pipeline，它更重视过程奖励和策略优化之间的数据分布一致性。

第二，设计 hybrid offline dataset，将专家示范和 agent 自生成轨迹结合起来。专家数据提供成功路径和高质量指导，自生成数据暴露模型真实错误和行为分布，两者共同提升 critic learning 的稳定性。

第三，引入 weighted IQL 和 GAE，将稀疏终局奖励转化为 step-wise process rewards。这样既避免人工逐步标注，也不需要环境回溯或大量在线搜索。

第四，采用 behavior-proximal policy optimization，在数据支持范围内进行保守策略更新。该方法不仅强化正优势动作，也压低负优势动作，有助于纠正长程决策中的错误行为。

第五，在 AlfWorld、WebShop 和 ScienceWorld 上取得稳定提升，并在样本效率和跨模型泛化方面表现突出。

从研究意义来看，这篇论文的重点不是单纯提出一个更强的 agent，而是回答了长程 LLM Agent 训练中的一个基础问题，即在只有终局奖励的情况下，如何可靠地生成过程监督，并让 agent 在不严重偏离数据分布的前提下持续自我改进。Q-Evolve 的答案是让 policy、critic 和 dataset 共同演化，同时保证每一轮更新仍然在当前数据分布内完成。

整体来看，该工作对 LLM Agent 的训练有较强参考价值。它把 self-evolving agent 从概念层面推进到了一个更具体的强化学习框架中，也说明未来 agent 训练不能只关注最终任务成功率，还需要关注过程奖励的可靠性、数据分布的一致性和策略更新的稳定性。