SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills

1. 论文概述与引言

SKILLOPT提出了一种开创性的文本空间优化框架，用于实现代理技能的自进化。该论文深刻指出，当今代理技能主要依赖手工 crafting、单次 LLM 生成或松散的自修订循环，这些方法均无法像深度学习优化器那样提供系统、可控且可重复的改进路径。作者主张，应将技能文档视为冻结代理模型的外部可训练状态，引入独立的 frontier 优化器模型。该优化器通过分析带分数的 rollout 轨迹，生成受限的 add/delete/replace 编辑操作，并仅在编辑能严格提升 held-out 验证集得分时才接受。这种严格的验证门控机制，完美模拟了权重空间优化的纪律性和稳定性，避免了传统提示工程中常见的漂移和退化问题。

论文强调，代理技能作为领域适应的核心接口，能够系统性地封装程序性知识、领域特定启发式、工具使用策略、输出格式约束以及常见失败模式，从而让冻结的底层模型通过外部文本实现高效适应。SKILLOPT 创新性地引入了文本形式的 learning-rate 预算、拒绝编辑缓冲区以及逐 epoch 的慢/元更新机制，确保整个技能训练过程既稳定又高效。在六个多样化基准（涵盖 QA、电子表格、文档、多模态、数学和具身决策）、七个不同规模的目标模型以及三种执行 harness（直接聊天、Codex、Claude Code）上，SKILLOPT 在全部 52 个评估单元中均取得最佳或并列最佳成绩。在 GPT-5.5 直接聊天模式下，平均准确率提升高达 23.5 个百分点，充分展示了其在实际代理任务中的强大潜力。该方法的核心价值在于将技能进化转化为一个可严格验证的优化循环，而非传统的 ad-hoc 提示修改，这为未来代理系统的持续改进提供了坚实的理论和实践基础。

SKILLOPT 的另一重大创新在于其零推理时开销设计。优化过程完全离线进行，最终仅导出一个紧凑的 best_skill.md 文件，部署时无需额外调用优化器模型。转移实验进一步强化了其实用性：优化后的技能能在不同模型规模之间、不同执行环境之间以及相近基准任务上保持显著正向迁移效果，这大大降低了实际生产环境中领域适应的成本，为企业级代理部署提供了可扩展的解决方案。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图

2. 方法论核心设计

SKILLOPT 的优化循环由多个精心设计的阶段构成，包括前向 rollout 证据收集、后向小批量反思、有界文本更新、验证门控以及逐纪元慢/元更新。在前向阶段，目标模型使用当前版本的技能在训练集上执行批量任务，harness 详细记录轨迹中的元数据、工具调用、观察结果、最终答案和验证器反馈，为后续优化提供丰富且结构化的证据。后向反思阶段，优化器模型首先将成功和失败轨迹分离，并进一步划分为小批量进行分析。这种小批量处理方式能有效发现系统性的程序性错误，而非仅针对单个孤立案例提出临时修复。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图1

有界文本更新是 SKILLOPT 最核心的创新之一。通过引入文本学习率 Lt（每次步骤允许的最大编辑数量），系统有效防止了无界重写可能带来的有用规则擦除或不兼容指令引入的问题。优化器会对合并后的编辑池进行排名，并严格限制在当前预算内。候选技能生成后，必须通过 held-out 验证集的严格评估（得分需严格高于当前最佳），才能被正式接受；否则进入拒绝缓冲区，作为后续优化的负反馈信号。逐纪元慢/元更新则负责捕捉跨 epoch 的长期模式，通过对比前后 epoch 的表现，生成保护字段中的纵向指导，进一步提升优化的长期稳定性和泛化能力。这种多层次控制机制，使得技能优化过程真正具备了类似深度学习训练的系统性、可解释性和鲁棒性。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图2

此外，方法特别注重 harness 无关性和可移植性。通过轻量级适配器接口，同一优化框架可无缝支持直接聊天、Codex 风格代码执行和 Claude Code 环境。这种设计彻底将技能定位为可复用的领域适应层：强大的优化器仅在训练阶段发挥作用，部署时仅需加载精炼后的技能文档即可显著提升任意目标模型的表现，极大降低了实际应用门槛。

3. 实验结果与性能表现

实验设计全面且严谨，涵盖 SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench 和 ALFWorld 六个代表性基准，横跨 GPT 系列前沿模型到 Qwen 小模型，并在直接聊天、Codex 以及 Claude Code 三种执行模式下进行评估。SKILLOPT 在全部 52 个（模型、基准、harness）评估单元中均取得最佳或并列最佳成绩，全面超越人类手工技能、单次 LLM 生成技能、Trace2Skill、TextGrad、GEPA 以及 EvoSkill 等主流基线，展现出压倒性优势。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图3

特别是在 GPT-5.5 直接聊天模式下，SKILLOPT 将平均性能从无技能的 58.8 提升至 82.3，净增 23.5 个百分点。其中程序化任务受益最为显著：SpreadsheetBench 从 41.8 跃升至 80.7，OfficeQA 从 33.1 提升至 72.1，LiveMathematicianBench 从 37.6 升至 66.9。这些大幅提升充分说明，SKILLOPT 能有效注入前沿模型欠缺的程序性纪律和领域知识。在 Codex 和 Claude Code 等工具增强执行环境中，同样分别取得 +24.8 和 +19.1 的平均提升，证明该方法对复杂多轮交互场景同样适用。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图4

值得注意的是，小规模和较弱模型从优化技能中获益尤为明显。例如 GPT-5.4-nano 在多个基准上实现了接近翻倍的性能跃升。这表明紧凑的技能文档能有效补充小模型权重中缺失的程序性知识。跨模型、跨 harness 和跨基准的转移实验进一步验证了技能的鲁棒性和复用价值，为实际部署提供了强有力的支撑。

4. 消融分析与技能特性

全面的消融实验有力证明了 SKILLOPT 各组件的关键作用。有界学习率、拒绝编辑缓冲、严格验证门控以及逐纪元慢/元更新共同构成了性能提升的核心。其中，移除慢/元更新在 SpreadsheetBench 上导致了高达 22.5 个百分点的剧烈性能下降，凸显长期跨 epoch 指导对于捕捉持久领域模式的重要性。其他组件的移除同样会带来显著退化，进一步验证了整个优化框架设计的系统性和必要性。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图5

最终学到的技能文档表现出极佳的紧凑性和编辑经济性：长度稳定控制在 300–2000 token 之间，通常仅需 1–4 次接受的编辑即可实现大幅性能提升。这种高效率源于验证门控对低质量提议的严格过滤，大量潜在编辑被拒绝并转化为负反馈，保障了部署技能的高质量。学到的规则高度程序化，聚焦于通用策略而非具体实例，例如要求系统检查工作簿结构、严格绑定视觉证据、维护搜索前沿记忆等。这些规则不仅可读性强、便于人工审计，还体现了接近人类专家水平的洞察力。训练成本分析显示，虽然不同基准的 token 消耗有所差异，但整体可控，且一次性训练后即可长期复用，性价比极高。

SkILLOPT: Executive Strategy forSelf-Evolving Agent Skills插图6

5. 结论与展望

SKILLOPT 为 LLM 代理技能优化提供了首个系统性、可控的文本空间优化框架。它成功证明，通过将技能文档作为外部可训练状态，并应用类似深度学习的控制机制（学习率、验证门控、慢更新等），能够在不修改模型权重的前提下实现显著且稳定的性能提升。该方法在广泛实验中展现的优越性、转移能力和可解释性，为代理系统的实际部署开辟了全新路径。

展望未来，可进一步扩展至多技能库协同进化、偏好驱动或无奖励验证机制，以及将优化技能自蒸馏回目标模型以实现混合适应等方向。总体而言，SKILLOPT 是一篇具有重要理论创新和强大实践价值的论文，为构建更智能、更可靠的 LLM 代理系统贡献了关键方法论。