1. 摘要(Abstract)
本文研究的是 LLM Agents 在长程交互任务中的强化学习训练问题。现有大模型智能体在完成复杂环境任务时,通常会把完整的历史交互记录作为上下文输入,包括任务指令、过去观察、动作和中间状态等。这种做法虽然能帮助模型理解当前处境,但也带来了明显问题:随着任务步骤变长,输入上下文不断膨胀,推理成本和训练成本都会快速上升;同时,大量冗余或无关历史信息也可能干扰模型判断,影响长期决策质量。
针对这一问题,论文提出 STEP-HRL(Augmented Step-level Hierarchical Reinforcement Learning)。它的核心思想是:长程任务不一定必须依赖完整历史上下文,而可以通过“层次化任务结构 + 局部进展摘要”来构造更紧凑的 step-level transition。具体来说,STEP-HRL 将任务分为高层子任务规划和低层动作执行两个层次。高层策略负责生成子任务,低层策略负责在当前子任务下执行具体动作。同时,论文引入一个 local progress policy,用于持续总结当前子任务内部的关键进展,把局部历史压缩成简短的文本状态,从而避免低层策略反复读取完整历史。
在训练方式上,STEP-HRL 采用两阶段流程。第一阶段使用专家轨迹进行 behavior cloning,让高层策略、低层策略和局部进展策略先学会基本输出格式和任务行为;第二阶段再进行 step-level offline RL,利用 actor-critic 框架对策略进一步优化。三个策略共享同一个 LLM backbone,并通过不同 critic network 分别学习不同层次的价值信号,以兼顾参数效率和层次化决策能力。
实验在 ScienceWorld 和 ALFWorld 两个交互式决策基准上进行。结果显示,STEP-HRL 在 Mistral-7B、Gemma-7B 和 Llama-3-8B 等不同开源模型上都显著超过 ReAct、Reflexion、SwiftSage、ETO、WKM 和 GLIDER 等基线方法,并且在 unseen tasks 上也保持较好泛化能力。效率分析进一步表明,STEP-HRL 能显著降低 token usage,使每一步输入长度更加稳定。整体来看,这篇论文的重点不是简单提出一个新的 agent prompt 或任务分解方法,而是试图回答一个更基础的问题:LLM Agent 是否一定要依赖完整历史上下文,还是可以通过结构化进展表示实现更高效的 step-level learning?

2. 研究背景与问题动机(Introduction)
LLM Agents 已经在复杂交互任务中表现出较强能力,例如文本游戏、家庭任务规划、科学实验环境和工具调用任务等。相比单轮问答,这类任务更接近真实决策过程:模型需要根据环境反馈不断调整动作,并在多步交互中完成最终目标。因此,强化学习被认为是一条重要路线,因为它可以通过环境反馈优化策略,而不是只依赖固定示范数据。
但现有 LLM Agent 的一个常见设定是 history-conditioned policy,也就是每一步决策都把完整历史交互记录输入模型。这种设计很自然,因为 Transformer 可以处理序列,过去的观察和动作也确实包含状态信息。然而,论文指出,这种做法把“长程决策”错误地等同于“长上下文建模”。随着交互步数增加,attention 计算成本会持续上升,而且未经筛选的历史记录会不断积累冗余信息,使模型更难抓住当前决策真正需要的线索。
已有工作主要从两个方向缓解这个问题。一类方法尝试压缩历史,例如做 memory summary 或 context compression;另一类方法关注长期 credit assignment,希望更准确地判断哪些步骤对最终成功有贡献。但这些方法通常仍然保留了“策略依赖完整历史”的基本设定。即使是一些层次强化学习方法,也只是把任务拆成高层和低层,却仍让两个层次的策略读取累积历史,因此没有真正摆脱 long-context dependence。
STEP-HRL 的动机正是重新审视这个前提。作者认为,长程任务真正需要的不是完整历史本身,而是能够表达任务进展的结构化信息。对全局任务来说,已经完成的子任务可以代表整体进展;对当前子任务来说,只需要保留与该子任务相关的局部进展摘要。因此,论文提出用 completed subtasks 表示 global progress,用 local progress module 表示 subtask-level progress,从而让策略基于单步转移进行学习,而不是依赖不断增长的历史上下文。
这篇论文的问题意识比较清楚:它不是单纯问“如何让 LLM Agent 做得更好”,而是进一步问“LLM Agent 的状态表示是否必须是完整历史”。这个问题抓得比较基础,也更适合训练研究阅读中对核心矛盾的把握。

3. 方法整体框架(Method Overview)
STEP-HRL 的整体框架由三个策略组成:high-level policy、low-level policy 和 local progress policy。高层策略负责根据任务目标和已完成子任务生成下一个子任务;低层策略负责在当前子任务下执行具体环境动作;局部进展策略则负责在每一步更新当前子任务的 progress summary。三个策略虽然功能不同,但共享同一个 LLM 参数,只是在离线强化学习阶段配备不同的 critic network。
在传统 HRL 中,高层策略通常根据完整全局历史生成子任务,低层策略则根据子任务和局部历史生成动作。STEP-HRL 对这一点做了改造。它认为,完整全局历史可以被已经完成的子任务序列近似表示;而子任务内部的局部历史,则由 local progress policy 逐步总结。这样,低层策略每一步只需要看到当前子任务、当前观察和当前局部进展,而不需要读取从任务开始到现在的全部记录。
Local progress policy 是整个框架的关键。它在每个子任务内部持续工作:根据当前子任务、上一步动作、当前观察和上一个 progress summary,生成新的 progress summary。这个 summary 不是简单压缩全部历史,而是选择性保留与当前子任务相关的信息。比如在 ALFWorld 的家庭任务中,它可以记录已经找到的物体、已经打开的容器、物体当前位置等;在 ScienceWorld 中,它可以记录实验状态、已观察到的现象或已经完成的操作。
这种设计让 STEP-HRL 得到两类 augmented step-level transitions。低层 transition 包含当前观察、局部进展、动作、奖励和下一步局部进展;高层 transition 则包含前一子任务的最终局部进展、下一个子任务初始观察、当前子任务、子任务奖励以及后续进展。通过这种方式,模型可以在 step-level 上学习,而不是在完整 trajectory 上学习。
4. 核心方法:局部进展建模与两阶段训练(Core Method)
STEP-HRL 的第一个核心是 local progress modeling。它解决的是“当前子任务内部到底发生了什么”这一问题。传统做法会把子任务内部的完整动作和观察都放进上下文,但 STEP-HRL 只保留一个不断更新的 progress summary。这个 summary 每一步都会被改写和补充,因此既能继承过去有用信息,又不会让输入长度随时间线性增长。
第二个核心是 层次化 step-level transition。高层策略不再依赖完整历史,而是根据任务指令、已完成子任务、上一子任务的最终 progress 和下一子任务初始观察来生成新子任务。低层策略则根据当前子任务、当前 observation 和当前 local progress 来生成 primitive action。这样,长程任务被拆成多个更短、更清晰的局部决策过程,减轻了模型直接处理长历史的负担。
第三个核心是 behavior cloning 初始化。由于 ScienceWorld 和 ALFWorld 这类环境具有专门的动作空间和状态表达,直接用 RL 训练 LLM Agent 往往效率很低。因此作者先从专家轨迹中构造三类示范数据:高层子任务生成数据、低层动作执行数据和局部进展生成数据。通过行为克隆,三个策略先学会基本任务格式和合理行为,为后续 offline RL 提供稳定起点。
第四个核心是 step-level offline RL。作者在行为克隆模型基础上继续收集轨迹,并和专家数据混合形成离线数据集。随后采用类似 IQL/ILQL 的 actor-critic 方法:critic 估计每个 step-level state-action 的价值,policy 则通过 advantage-weighted regression 更倾向于学习高价值动作。与传统基于完整历史的 RL 不同,这里的状态就是前面构造出的单步状态表示,而不是整段历史。
从方法设计上看,STEP-HRL 的创新点并不是某一个模块特别复杂,而是几个模块配合得比较紧:层次化结构负责降低任务复杂度,local progress 负责压缩局部历史,behavior cloning 负责稳定初始化,offline RL 负责提升泛化和策略质量。这些部分共同服务于一个目标:让 LLM Agent 可以在不依赖完整历史的情况下完成长程决策。
5. 实验设置(Experimental Settings)
论文在两个典型交互式决策基准上评估 STEP-HRL。第一个是 ScienceWorld,这是一个文本化科学任务环境,覆盖物理、化学、生物等多个任务族,要求智能体完成多步实验、观察和推理。这个基准的难点在于任务多样性较强,而且很多任务需要根据中间观察逐步调整操作。第二个是 ALFWorld,它来自家庭场景任务,包含 pick-and-place、清洁、加热等语言条件任务,更强调长程动作规划和环境交互。
模型方面,论文主要使用三个开源 backbone:Mistral-7B、Gemma-7B 和 Llama-3-8B。同时,作者还在不同模型规模上做了分析,包括 Llama-1B、Llama-3B 和 Llama-8B,用来验证方法是否只对大模型有效。基线方法包括 prompt-based 的 ReAct、Reflexion、SwiftSage,也包括 LoRA fine-tuning 的 ETO、WKM 和 GLIDER。此外,论文还引用了 GPT-3.5-Turbo 和 GPT-4 在相关任务上的结果作为参考。
训练流程上,所有微调类方法都使用 LoRA。STEP-HRL 先进行 behavior cloning,再进行 offline RL。专家轨迹中的子任务和 local progress annotation 由 DeepSeek 生成,offline RL 数据则由行为克隆后的策略继续收集。这个设置说明 STEP-HRL 并不是完全不依赖示范数据,它仍然需要较高质量的结构化轨迹作为训练基础。

6. 实验结果与分析(Experiments)
主结果见 Table 1。整体来看,STEP-HRL 在三个 backbone 上都明显优于已有方法,而且在 seen 和 unseen tasks 上都有稳定提升。在 ScienceWorld 上,STEP-HRL 相比强基线 GLIDER 仍能继续提高,说明它不只是靠层次化任务分解本身,而是 local progress 和 step-level learning 确实带来了额外收益。在 ALFWorld 上,STEP-HRL 的成功率基本达到 96% 到 98% 左右,已经接近饱和表现,说明它在较规则的家庭任务环境中非常有效。
更值得注意的是 unseen tasks 的表现。很多 agent 方法在 seen tasks 上可以通过模仿或记忆取得不错结果,但在 unseen tasks 上容易下降。STEP-HRL 在 ScienceWorld unseen 和 ALFWorld unseen 上仍然保持较高成绩,说明它学到的不只是具体轨迹,而是更可迁移的任务进展表示和层次化决策方式。
Table 2 展示了不同模型规模下的结果。随着模型从 Llama-1B 到 Llama-8B 增大,ScienceWorld 和 ALFWorld 上的表现整体上升。不过,即使是 Llama-1B,在 ALFWorld 上也能达到接近 90% 的成功率,说明 STEP-HRL 对小模型也有帮助。这一点很重要,因为如果一种 agent 训练方法只能在大模型上工作,实际部署价值会受限;而 STEP-HRL 显示出一定的 scale robustness。
消融实验见 Figure 2。作者分别去掉 local progress、去掉 hierarchical structure、去掉 offline RL。结果显示,三种变体都会下降,其中 local progress 的作用尤其明显。没有 local progress 时,模型只能根据当前 observation 和子任务决策,很多历史状态会变得不可区分,导致 credit assignment 和动作选择都更困难;没有层次结构时,local progress 需要独自承担全局长历史压缩,压力过大;没有 offline RL 时,模型退化为 behavior cloning,泛化能力不足。这个消融结果支撑了论文的核心判断:STEP-HRL 的效果来自层次结构、局部进展建模和离线强化学习三者共同作用。
效率分析见 Figure 3 和 Table 3。在相同观察和动作序列下,普通 RL 方法的 token usage 会随着步数持续上升,因为每一步都要读完整历史;传统 HRL 虽然整体减少 token,但在生成子任务时会出现明显峰值;STEP-HRL 则基本保持稳定,每一步输入长度波动小。该实验中,总 token usage 分别为 RL 17.8k、HRL 10.8k、STEP-HRL 9.1k,说明 STEP-HRL 不仅效果更好,也更节省上下文。Table 3 则显示,STEP-HRL 在早期步骤可能略慢,因为它包含多个策略和额外 progress generation;但随着历史增长,普通 agent 的延迟逐渐上升,而 STEP-HRL 保持稳定,更适合长程任务。
最后,Figure 4 分析了 offline RL 的敏感性。结果显示,advantage temperature、expectile parameter、数据来源和数据量都会影响最终表现。混合专家数据和 BC-collected 数据通常优于只用其中一种,说明专家数据提供高质量轨迹,而模型自己收集的数据则补充了更真实的失败和偏差样本。数据量也不是越大越好,过多低质量或冗余样本反而会影响稳定训练。




7. 贡献与结论(Contributions and Conclusion)
本文的主要贡献可以概括为四点。
第一,论文提出 STEP-HRL,将 LLM Agent 的长程决策从完整历史条件建模,转向基于 progress representation 的 step-level learning。这个视角比较重要,因为它把问题从“如何塞进更长上下文”转为“如何构造更有效的状态表示”。
第二,论文设计了 local progress module,用于在每个子任务内部选择性总结交互历史。它既保留了当前子任务中有用的信息,又避免上下文无限增长,是 STEP-HRL 区别于普通 HRL 的关键。
第三,论文提出参数高效的训练框架,使高层策略、低层策略和局部进展策略共享同一个 LLM backbone,并通过不同 critic network 分别学习不同层次的价值信号。这样既降低训练和推理开销,也促进不同层次之间的知识迁移。
第四,论文在 ScienceWorld 和 ALFWorld 上进行了较全面实验,证明 STEP-HRL 在性能、泛化和 token efficiency 上都优于已有 agent 方法。尤其是在 unseen tasks 上的提升,说明这种 step-level progress representation 具有一定泛化价值。
当然,这篇论文也有局限。作者在结论后明确提到,STEP-HRL 依赖高质量专家示范,尤其需要构造子任务和 local progress,这在复杂环境中并不总是容易。另一个问题是,子任务终止由低层输出同时预测,可能出现提前终止或延迟终止,从而影响 transition 质量和高低层协同。这些局限说明 STEP-HRL 并没有彻底解决 LLM Agent 的长程决策训练问题,但它提供了一个很清晰的方向:未来的 agent 不一定要不断扩大上下文窗口,而可以通过更结构化的任务进展表示来提高效率和鲁棒性。
总体来看,这篇论文的价值在于,它抓住了 LLM Agent 中一个容易被忽略的问题:长程交互不等于长上下文输入。STEP-HRL 通过层次化结构和局部进展摘要,把复杂历史转化为可控的 step-level state,使 LLM Agent 的强化学习训练更高效、更稳定,也更容易泛化到新任务。