Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents

1. 摘要（Abstract）

本文研究的是 LLM Agents 在长程交互任务中的强化学习训练问题。现有大模型智能体在完成复杂环境任务时，通常会把完整的历史交互记录作为上下文输入，包括任务指令、过去观察、动作和中间状态等。这种做法虽然能帮助模型理解当前处境，但也带来了明显问题：随着任务步骤变长，输入上下文不断膨胀，推理成本和训练成本都会快速上升；同时，大量冗余或无关历史信息也可能干扰模型判断，影响长期决策质量。

针对这一问题，论文提出 STEP-HRL（Augmented Step-level Hierarchical Reinforcement Learning）。它的核心思想是：长程任务不一定必须依赖完整历史上下文，而可以通过“层次化任务结构 + 局部进展摘要”来构造更紧凑的 step-level transition。具体来说，STEP-HRL 将任务分为高层子任务规划和低层动作执行两个层次。高层策略负责生成子任务，低层策略负责在当前子任务下执行具体动作。同时，论文引入一个 local progress policy，用于持续总结当前子任务内部的关键进展，把局部历史压缩成简短的文本状态，从而避免低层策略反复读取完整历史。

在训练方式上，STEP-HRL 采用两阶段流程。第一阶段使用专家轨迹进行 behavior cloning，让高层策略、低层策略和局部进展策略先学会基本输出格式和任务行为；第二阶段再进行 step-level offline RL，利用 actor-critic 框架对策略进一步优化。三个策略共享同一个 LLM backbone，并通过不同 critic network 分别学习不同层次的价值信号，以兼顾参数效率和层次化决策能力。

实验在 ScienceWorld 和 ALFWorld 两个交互式决策基准上进行。结果显示，STEP-HRL 在 Mistral-7B、Gemma-7B 和 Llama-3-8B 等不同开源模型上都显著超过 ReAct、Reflexion、SwiftSage、ETO、WKM 和 GLIDER 等基线方法，并且在 unseen tasks 上也保持较好泛化能力。效率分析进一步表明，STEP-HRL 能显著降低 token usage，使每一步输入长度更加稳定。整体来看，这篇论文的重点不是简单提出一个新的 agent prompt 或任务分解方法，而是试图回答一个更基础的问题：LLM Agent 是否一定要依赖完整历史上下文，还是可以通过结构化进展表示实现更高效的 step-level learning？

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图

2. 研究背景与问题动机（Introduction）

LLM Agents 已经在复杂交互任务中表现出较强能力，例如文本游戏、家庭任务规划、科学实验环境和工具调用任务等。相比单轮问答，这类任务更接近真实决策过程：模型需要根据环境反馈不断调整动作，并在多步交互中完成最终目标。因此，强化学习被认为是一条重要路线，因为它可以通过环境反馈优化策略，而不是只依赖固定示范数据。

但现有 LLM Agent 的一个常见设定是 history-conditioned policy，也就是每一步决策都把完整历史交互记录输入模型。这种设计很自然，因为 Transformer 可以处理序列，过去的观察和动作也确实包含状态信息。然而，论文指出，这种做法把“长程决策”错误地等同于“长上下文建模”。随着交互步数增加，attention 计算成本会持续上升，而且未经筛选的历史记录会不断积累冗余信息，使模型更难抓住当前决策真正需要的线索。

已有工作主要从两个方向缓解这个问题。一类方法尝试压缩历史，例如做 memory summary 或 context compression；另一类方法关注长期 credit assignment，希望更准确地判断哪些步骤对最终成功有贡献。但这些方法通常仍然保留了“策略依赖完整历史”的基本设定。即使是一些层次强化学习方法，也只是把任务拆成高层和低层，却仍让两个层次的策略读取累积历史，因此没有真正摆脱 long-context dependence。

STEP-HRL 的动机正是重新审视这个前提。作者认为，长程任务真正需要的不是完整历史本身，而是能够表达任务进展的结构化信息。对全局任务来说，已经完成的子任务可以代表整体进展；对当前子任务来说，只需要保留与该子任务相关的局部进展摘要。因此，论文提出用 completed subtasks 表示 global progress，用 local progress module 表示 subtask-level progress，从而让策略基于单步转移进行学习，而不是依赖不断增长的历史上下文。

这篇论文的问题意识比较清楚：它不是单纯问“如何让 LLM Agent 做得更好”，而是进一步问“LLM Agent 的状态表示是否必须是完整历史”。这个问题抓得比较基础，也更适合训练研究阅读中对核心矛盾的把握。

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图1

3. 方法整体框架（Method Overview）

STEP-HRL 的整体框架由三个策略组成：high-level policy、low-level policy 和 local progress policy。高层策略负责根据任务目标和已完成子任务生成下一个子任务；低层策略负责在当前子任务下执行具体环境动作；局部进展策略则负责在每一步更新当前子任务的 progress summary。三个策略虽然功能不同，但共享同一个 LLM 参数，只是在离线强化学习阶段配备不同的 critic network。

在传统 HRL 中，高层策略通常根据完整全局历史生成子任务，低层策略则根据子任务和局部历史生成动作。STEP-HRL 对这一点做了改造。它认为，完整全局历史可以被已经完成的子任务序列近似表示；而子任务内部的局部历史，则由 local progress policy 逐步总结。这样，低层策略每一步只需要看到当前子任务、当前观察和当前局部进展，而不需要读取从任务开始到现在的全部记录。

Local progress policy 是整个框架的关键。它在每个子任务内部持续工作：根据当前子任务、上一步动作、当前观察和上一个 progress summary，生成新的 progress summary。这个 summary 不是简单压缩全部历史，而是选择性保留与当前子任务相关的信息。比如在 ALFWorld 的家庭任务中，它可以记录已经找到的物体、已经打开的容器、物体当前位置等；在 ScienceWorld 中，它可以记录实验状态、已观察到的现象或已经完成的操作。

这种设计让 STEP-HRL 得到两类 augmented step-level transitions。低层 transition 包含当前观察、局部进展、动作、奖励和下一步局部进展；高层 transition 则包含前一子任务的最终局部进展、下一个子任务初始观察、当前子任务、子任务奖励以及后续进展。通过这种方式，模型可以在 step-level 上学习，而不是在完整 trajectory 上学习。

4. 核心方法：局部进展建模与两阶段训练（Core Method）

STEP-HRL 的第一个核心是 local progress modeling。它解决的是“当前子任务内部到底发生了什么”这一问题。传统做法会把子任务内部的完整动作和观察都放进上下文，但 STEP-HRL 只保留一个不断更新的 progress summary。这个 summary 每一步都会被改写和补充，因此既能继承过去有用信息，又不会让输入长度随时间线性增长。

第二个核心是 层次化 step-level transition。高层策略不再依赖完整历史，而是根据任务指令、已完成子任务、上一子任务的最终 progress 和下一子任务初始观察来生成新子任务。低层策略则根据当前子任务、当前 observation 和当前 local progress 来生成 primitive action。这样，长程任务被拆成多个更短、更清晰的局部决策过程，减轻了模型直接处理长历史的负担。

第三个核心是 behavior cloning 初始化。由于 ScienceWorld 和 ALFWorld 这类环境具有专门的动作空间和状态表达，直接用 RL 训练 LLM Agent 往往效率很低。因此作者先从专家轨迹中构造三类示范数据：高层子任务生成数据、低层动作执行数据和局部进展生成数据。通过行为克隆，三个策略先学会基本任务格式和合理行为，为后续 offline RL 提供稳定起点。

第四个核心是 step-level offline RL。作者在行为克隆模型基础上继续收集轨迹，并和专家数据混合形成离线数据集。随后采用类似 IQL/ILQL 的 actor-critic 方法：critic 估计每个 step-level state-action 的价值，policy 则通过 advantage-weighted regression 更倾向于学习高价值动作。与传统基于完整历史的 RL 不同，这里的状态就是前面构造出的单步状态表示，而不是整段历史。

从方法设计上看，STEP-HRL 的创新点并不是某一个模块特别复杂，而是几个模块配合得比较紧：层次化结构负责降低任务复杂度，local progress 负责压缩局部历史，behavior cloning 负责稳定初始化，offline RL 负责提升泛化和策略质量。这些部分共同服务于一个目标：让 LLM Agent 可以在不依赖完整历史的情况下完成长程决策。

5. 实验设置（Experimental Settings）

论文在两个典型交互式决策基准上评估 STEP-HRL。第一个是 ScienceWorld，这是一个文本化科学任务环境，覆盖物理、化学、生物等多个任务族，要求智能体完成多步实验、观察和推理。这个基准的难点在于任务多样性较强，而且很多任务需要根据中间观察逐步调整操作。第二个是 ALFWorld，它来自家庭场景任务，包含 pick-and-place、清洁、加热等语言条件任务，更强调长程动作规划和环境交互。

模型方面，论文主要使用三个开源 backbone：Mistral-7B、Gemma-7B 和 Llama-3-8B。同时，作者还在不同模型规模上做了分析，包括 Llama-1B、Llama-3B 和 Llama-8B，用来验证方法是否只对大模型有效。基线方法包括 prompt-based 的 ReAct、Reflexion、SwiftSage，也包括 LoRA fine-tuning 的 ETO、WKM 和 GLIDER。此外，论文还引用了 GPT-3.5-Turbo 和 GPT-4 在相关任务上的结果作为参考。

训练流程上，所有微调类方法都使用 LoRA。STEP-HRL 先进行 behavior cloning，再进行 offline RL。专家轨迹中的子任务和 local progress annotation 由 DeepSeek 生成，offline RL 数据则由行为克隆后的策略继续收集。这个设置说明 STEP-HRL 并不是完全不依赖示范数据，它仍然需要较高质量的结构化轨迹作为训练基础。

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图2

6. 实验结果与分析（Experiments）

主结果见 Table 1。整体来看，STEP-HRL 在三个 backbone 上都明显优于已有方法，而且在 seen 和 unseen tasks 上都有稳定提升。在 ScienceWorld 上，STEP-HRL 相比强基线 GLIDER 仍能继续提高，说明它不只是靠层次化任务分解本身，而是 local progress 和 step-level learning 确实带来了额外收益。在 ALFWorld 上，STEP-HRL 的成功率基本达到 96% 到 98% 左右，已经接近饱和表现，说明它在较规则的家庭任务环境中非常有效。

更值得注意的是 unseen tasks 的表现。很多 agent 方法在 seen tasks 上可以通过模仿或记忆取得不错结果，但在 unseen tasks 上容易下降。STEP-HRL 在 ScienceWorld unseen 和 ALFWorld unseen 上仍然保持较高成绩，说明它学到的不只是具体轨迹，而是更可迁移的任务进展表示和层次化决策方式。

Table 2 展示了不同模型规模下的结果。随着模型从 Llama-1B 到 Llama-8B 增大，ScienceWorld 和 ALFWorld 上的表现整体上升。不过，即使是 Llama-1B，在 ALFWorld 上也能达到接近 90% 的成功率，说明 STEP-HRL 对小模型也有帮助。这一点很重要，因为如果一种 agent 训练方法只能在大模型上工作，实际部署价值会受限；而 STEP-HRL 显示出一定的 scale robustness。

消融实验见 Figure 2。作者分别去掉 local progress、去掉 hierarchical structure、去掉 offline RL。结果显示，三种变体都会下降，其中 local progress 的作用尤其明显。没有 local progress 时，模型只能根据当前 observation 和子任务决策，很多历史状态会变得不可区分，导致 credit assignment 和动作选择都更困难；没有层次结构时，local progress 需要独自承担全局长历史压缩，压力过大；没有 offline RL 时，模型退化为 behavior cloning，泛化能力不足。这个消融结果支撑了论文的核心判断：STEP-HRL 的效果来自层次结构、局部进展建模和离线强化学习三者共同作用。

效率分析见 Figure 3 和 Table 3。在相同观察和动作序列下，普通 RL 方法的 token usage 会随着步数持续上升，因为每一步都要读完整历史；传统 HRL 虽然整体减少 token，但在生成子任务时会出现明显峰值；STEP-HRL 则基本保持稳定，每一步输入长度波动小。该实验中，总 token usage 分别为 RL 17.8k、HRL 10.8k、STEP-HRL 9.1k，说明 STEP-HRL 不仅效果更好，也更节省上下文。Table 3 则显示，STEP-HRL 在早期步骤可能略慢，因为它包含多个策略和额外 progress generation；但随着历史增长，普通 agent 的延迟逐渐上升，而 STEP-HRL 保持稳定，更适合长程任务。

最后，Figure 4 分析了 offline RL 的敏感性。结果显示，advantage temperature、expectile parameter、数据来源和数据量都会影响最终表现。混合专家数据和 BC-collected 数据通常优于只用其中一种，说明专家数据提供高质量轨迹，而模型自己收集的数据则补充了更真实的失败和偏差样本。数据量也不是越大越好，过多低质量或冗余样本反而会影响稳定训练。

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图3

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图4

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图5

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents插图6

7. 贡献与结论（Contributions and Conclusion）

本文的主要贡献可以概括为四点。

第一，论文提出 STEP-HRL，将 LLM Agent 的长程决策从完整历史条件建模，转向基于 progress representation 的 step-level learning。这个视角比较重要，因为它把问题从“如何塞进更长上下文”转为“如何构造更有效的状态表示”。

第二，论文设计了 local progress module，用于在每个子任务内部选择性总结交互历史。它既保留了当前子任务中有用的信息，又避免上下文无限增长，是 STEP-HRL 区别于普通 HRL 的关键。

第三，论文提出参数高效的训练框架，使高层策略、低层策略和局部进展策略共享同一个 LLM backbone，并通过不同 critic network 分别学习不同层次的价值信号。这样既降低训练和推理开销，也促进不同层次之间的知识迁移。

第四，论文在 ScienceWorld 和 ALFWorld 上进行了较全面实验，证明 STEP-HRL 在性能、泛化和 token efficiency 上都优于已有 agent 方法。尤其是在 unseen tasks 上的提升，说明这种 step-level progress representation 具有一定泛化价值。

当然，这篇论文也有局限。作者在结论后明确提到，STEP-HRL 依赖高质量专家示范，尤其需要构造子任务和 local progress，这在复杂环境中并不总是容易。另一个问题是，子任务终止由低层输出同时预测，可能出现提前终止或延迟终止，从而影响 transition 质量和高低层协同。这些局限说明 STEP-HRL 并没有彻底解决 LLM Agent 的长程决策训练问题，但它提供了一个很清晰的方向：未来的 agent 不一定要不断扩大上下文窗口，而可以通过更结构化的任务进展表示来提高效率和鲁棒性。

总体来看，这篇论文的价值在于，它抓住了 LLM Agent 中一个容易被忽略的问题：长程交互不等于长上下文输入。STEP-HRL 通过层次化结构和局部进展摘要，把复杂历史转化为可控的 step-level state，使 LLM Agent 的强化学习训练更高效、更稳定，也更容易泛化到新任务。