欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

无人机群协同目标搜索的多智能体强化学习方法

未分类 hcl

Y. Hou, J. Zhao, R. Zhang, et al. UAV Swarm Cooperative Target Search: A Multi-Agent Reinforcement Learning Approach[J]. IEEE Transactions on Intelligent Vehicles, 2024.

摘要

机器学习和人工智能算法的发展以及无人机集群技术的进步,显著增强了无人机在搜索任务中的智能性和自主性,未知区域搜索效率大幅提高。但随着搜索场景的日益复杂,现有的无人机集群搜索方法缺乏可扩展性和高效协作性。不断扩大的搜索场景规模使全局信息的准确性和实时性难以保证,因此技术方案需要提供局部信息。本文专注于大规模搜索场景并将其分割,为无人机集群搜索算法同时提供局部和全局信息。搜索环境通常是未知、动态和复杂的,需要在不断变化的环境中进行自适应决策,较适合建模为马尔可夫决策过程。针对基于序列的场景,本文提出了一种基于多智能体强化学习算法的分布式协同搜索方法。该方法能够在复杂的大规模场景中高效运行,还可以利用卷积神经网络来处理高维地图数据,几乎避免结构信息损失。实验表明,相较于现有基准方法,该算法能够协同搜索未知区域,避免碰撞和重复,并能更快地找到所有目标。

引言

无人机因其部署灵活、效率高等优势,已在搜救、农业监测等领域得到广泛应用。随着任务需求日益复杂,无人机集群协同搜索已成为重要研究方向。

现有的集群控制方法主要集中式方法和分布式方法。前者拥有协同能力强、延迟低的优点。但其中央控制器易成为性能瓶颈和单点故障源,且随着集群规模扩大,会带来巨大的计算与通信开销,难以适应大规模动态环境。后者则利用无人机可自主决策,具有可靠性高、容错性好、开销低等天然优势,更适合大规模协同。然而,分布式系统面临信息获取困境,且环境与任务数量的增加会导致状态空间“组合爆炸”,传统优化方法难以高效求解,环境中的障碍物与不均匀的目标分布进一步增加了搜索难度。

为解决上述挑战,本文主要贡献如下:

  1. 场景分割与信息融合策略:提出基于空间特征将大规模搜索地图分割为多个局部区域,使无人机能高效综合利用局部信息与全局概览
  2. 问题建模与分布式学习框架:将搜索优化问题精准地建模为马尔可夫决策过程,并融入领域知识以设计更有效的策略。在此基础上提出了基于多智能体强化学习的分布式搜索方法,实现大规模序列场景中的高效协作。
  3. 高效的MADDPG算法改进:提出一种基于多智能体深度确定性策略梯度算法的无人机集群控制方法,该方法具备离线训练、在线执行的特点,兼具低时间复杂度与高协作效率。为进一步提升性能,改进了MADDPG的网络模型,引入卷积神经网络处理高维地图数据,几乎无损地保留了空间结构信息。

本文的结构如下:第二节介绍了相关工作,第三节介绍了大规模搜索场景和系统模型,第四节详细介绍了基于MARL的无人机群体搜索方法,第五节讨论了仿真设置和实验结果,第六节总结了本文。

相关工作

该领域研究进程中,早期工作多聚焦于单机搜索,例如受滑翔机热气流技术启发的路由算法、基于建筑几何分析的抗阻塞部署方案等。然而,单机系统难以应对多目标、大范围的复杂任务需求。为突破这一局限,学者们开始转向多无人机协同搜索,多采用集中式控制思路,如基于势博弈的协同控制、改进麻雀搜索算法的任务规划、利用深度强化学习优化轨迹与计算卸载。此类方法虽在协作上具备一定效能,但中心节点易成为系统瓶颈,引发高昂的通信与计算开销。

近年来,研究重点逐渐转向分布式方法,以提升系统在未知环境中的自主性与鲁棒性。例如,受狼群协作狩猎行为启发的自组织任务分配、基于竞争协作粒子群优化的移动目标搜索策略。这些方法赋予无人机个体更高的决策权,展现出良好的容错与扩展潜力。但面对不断扩大的任务规模与环境复杂度,现有分布式方法在可扩展性与协作效率方面仍面临挑战。

为此,本文提出一种基于多智能体强化学习的无人机集群搜索新方法,通过对大规模场景进行有效划分与局部信息融合,旨在实现更高效、更具扩展性的协同搜索能力。

系统模型与问题表述

本文考虑的环境是一个需要探索的混合大小的搜索区域,该区域有一个无人机团队和多个目标,无人机的任务是在最短的时间内搜索该区域并找到所有目标。

A.系统模型

1 环境模型

将整个搜索区域划分为精细的网格地图,每个网格称为一个“单元”,如图1,用(x,y)表示单元状态。其中散布着多个待发现的目标。每架无人机等同于一个智能体。

图片

图1 多无人机搜索环境网格图

2 地图更新模型

为实现动态管理环境认知,系统引入了目标概率图(TPM)模型。TPM为每个单元赋予一个存在目标的概率值,初始时为0.5,表示最大不确定性。随着无人机的持续探测,TPM通过贝叶斯更新规则进行动态演化,并利用香农熵 来量化每个单元的不确定性。同时设定一个可调阈值,用于平衡目标漏检与误报风险。

3 移动模型

固定翼无人机在每个时间步的移动选项有限。如图2所示,每个无人机只能选择{-α,0,α}方向上的其中一个相邻小区,其中α是固定角度。

图片

图2 无人机的可选移动方向

B.问题描述

无人机在搜索环境中的使命是探索更多的未知区域,尽快发现更多的目标。优化函数J(t)有两部分:,表示目标搜索的效用; 表示环境搜索的效用。加权系数和用于平衡这两部分,优化函数定义为:

无人机群协同目标搜索的多智能体强化学习方法插图2

目标搜索效用,即所有未被发现的目标概率之和;环境搜索效用由环境信息熵随时间的变化量来衡量,鼓励系统探索不确定性高的区域。通过权重系数平衡二者,最终目标是最小化该联合目标函数,并满足无人机运动与边界约束。 最后,将优化问题描述如下:

无人机群协同目标搜索的多智能体强化学习方法插图3

其中和分别对应于无人机u的横坐标和纵坐标。约束条件C1将无人机u的转向角限制在固定范围内;约束条件C2和C3保证无人机不会离开有界搜索环境。

该优化问题的目标是非凸、非线性的,随着搜索范围的扩大,若采用传统的启发式算法而具有很高的复杂度,集中式学习则需要大量的计算量。因此本文采用MARL算法来解决该问题。

基于MARL的优化搜索

A.MARL的结构

MARL是一种强化学习算法,涉及多个Agent与环境以及彼此之间的交互。智能体学习基于来自环境的奖励信号和其他智能体的动作来做出决策,如图3所示。在MARL架构中,Agent n采取的每个动作都会产生相应的奖励,该奖励指导代理在时间t处于状态S的训练过程,最终找到可以最大化累积奖励的最佳策略。

图片

图3 MARL架构概述

在MARL中,目标是通过训练决策过程的样本来解决符合马尔可夫决策过程的问题。本文为搜索环境中的元素定义MARL系统如下:

  • Agent:每个UAV被指定为搜索系统中的代理,在搜索系统中,UAV从其传感器和搜索环境接收信息,然后UAV选择动作以向环境提供反馈。
  • Observation:在搜索过程中,每架无人机在TPM及其传感器的帮助下探索搜索环境。此外,各无人机之间还可以相互通信,从而可以获得其他无人机的位置信息和最新的TPM信息,从而实现了对无人机的全局观测。无人机u在时隙t的观测值定义如下:
无人机群协同目标搜索的多智能体强化学习方法插图5

其中,是时间t处的本地信息,表示时间t处的最新TPM,是UAV u在时间t处的位置,u表示除了UAV u之外的所有UAV,是UAV u的飞行方向。基于其观察,每个UAV选择要执行的动作。

  • State:在单智能体强化学习的结构中,观测值相当于状态。但在MARL范式中,状态是所有无人机观测值的并集。此外在MARL场景训练过程中,状态被用来更新评论者网络,而观察被用来更新演员网络。
  • Action:在每个时隙t,每个智能体为当前观测选择最优动作。
  • Reward:当无人机u选择一个方向并飞过一个网格后,它所飞入的单元格的目标概率会发生变化,此时无人机u从所有无人机共享的环境中获得一个奖励Rt,奖励定义如下:

在早期的MARL中,常见的方法分为集中式学习(CL)和分布式学习(DL)。CL在面对巨大的状态空间和动作空间时不能很好地运行;DL将其他智能体视为环境的一部分单独训练每个智能体,当所有智能体同时开始训练时每个智能体的策略发生变化,这可能导致环境中状态转换概率有变。故上述方法不适用于搜索环境。

多智能体深度确定性策略梯度(MADDPG)算法基于集中式学习和分布式执行,避免了传统算法的弊端。MADDPG算法应用了Actor-Critic架构。具体来说,它使用一个集中式critic来估计每个智能体的值,分散的actor根据每个智能体的个人观察选择行动。这允许智能体之间进行协调,同时允许独立决策。

B.基于MADDPG的搜索方法

该部分描述了基于MARL的搜索方法。本文选择了MADDPG算法来确定每架无人机的行动,并对网络的结构进行了优化以适应搜索环境,最后给出了完整的算法。

随着地图规模的增大,传统的启发式算法等方法无法求解复杂的解空间,或只考虑了局部观测,失去了全局的效。MADDPG可以在几乎不损失时间的情况下接收全局地图作为观测。此外,MADDPG利用集中式训练更新分布在各Agent中的策略网络,训练后的策略网络不仅充分吸收了其他Agent的信息,而且以分布式方式运行,无疑是一种有效方案。

传统的MARL所使用的网络模型一般是包含三层的多层感知(MLP)。 在搜索环境中,网格图是Agent观察的一部分,一般是二维矩阵。为了尽可能地保留原始观测信息,卷积神经网络(Convolution Neural Networks,CNN) 已被广泛应用于计算机视觉领域中的高分辨率图像处理,在MADDPG中被用来建立网络模型。

图片

图4 基于MADDPG的搜索架构概述

如图4所示,MADDPG的网络模型包含两种输入。CNN模型接收栅格地图信息,对数据进行三个卷积层和一个展平层的处理,将一维输出与其他数据拼接在一起。最后,拼接的数据由两个完全连接的层处理,并输出一热动作向量。 MADDPG的完整程序-基于搜索的方法如算法1所示。当所有目标被找到或运行超时时,搜索环境重新启动或重置。UAV通过在每个时隙连续改变它们的方向来合作探索环境,并且保存交互信息以用于训练。Actor和Critic网络使用历史样本每多步更新。在足够的迭代之后,此时,集中式训练模式转变为分布式执行模式,在分布式执行模式下,每个Agent根据自己的行动者网络和观察来进行决策。

仿真和结果

A.参数设置

在仿真场景中,网格地图的大小为50×50个单元,其中先验信息为零(每个单元的先验信息为z(0)=0.5,3架无人机随机分布在网格地图中,目标数量设置为10、20、30、40之间的不同值,以表示算法的泛化能力,目标位置未知。无人机经过5000步的训练,显示的数据是100个实验结果的平均值。

B.性能基准

为了验证所提出的基于MADDPG的搜索方法的性能,使用两种基线进行了比较.

  1. DQN:基于DQN的无人机群搜索方法将每一架无人机视为一个智能体,部署一个Q网络模型。观察和奖励设置与MADDPG相同,价值网络模型也相似,不同之处在于DQN中价值网络的输入是主体的局部观察,MADDPG中价值网络的输入是所有主体的全局状态。
  2. ACO:基于蚁群算法的无人机群搜索方法中,无人机通过信息素表选择其行动,信息素表具有大小为的三维矩阵,其中这些维度表示为行动、栅格地图和无人机的数量。

C.性能评估

图5中可以观察到在相同的初始参数下,基于MADDPG和基于DQN的无人机群搜索方法总体回报的收敛性。训练过程开始时,两种方法都是用随机参数初始化的。随着训练迭代次数的增加,两条曲线都开始上升。基于MADDPG的方法比基于DQN的方法学习效率更高。这是由于MADDPG的协作性质,它考虑了当无人机都找到目标时避免它们之间的碰撞。因此,MADDPG中的协作机制表现出更早的收敛和更高的回报。

图片

图5 训练集Reward

实验对三种方法在不同步数下的覆盖率进行了比较,如图6所示。目标数量设置为20。在步数较少的探索过程开始时,三条曲线显示出相似的结果。由于环境未知,无人机选择的任何转向角都是有效的。但随着搜索时间的增加,不同方法之间的差距变得更加明显,基于MADDPG的方法在探索过程中的表现优于其他算法。图片

图6 按时间步长计算的覆盖率

基于DQN和基于ACO的方法以相同的时间步长接近相似的覆盖率。最终,三种方法的覆盖率都收敛到0.9左右。

除了覆盖率,实验还评估了每种方法的重复率,以进一步验证我们之前的分析。

图片

图7 时间步长重复率

重复率是指在勘探过程中,对先前搜索过的区域重复访问的百分比,是衡量搜索算法效率的重要指标。由于协作机制带来的优势,基于MADDPG的方法的重复率仍然低于其他两种方法。结论与覆盖率评估的结果一致。

勘探过程的后期阶段,基于MADDPG的方法在发现目标方面也始终具有优势。如图8所示,相比之下基于MADDPG的方法发现的目标数量稳步增加,MADDPG的协作机制使UAV能够避免不必要的重叠和碰撞。

图片

图8 具有时间步长的目标数 目标总数为20

同时,基于MADDPG的方法的成功率比基于DQN和基于ACO的方法高出约10%,这表明MADDPG算法能够更有效地探索搜索空间,找到所有目标,从而提高了多无人机系统的整体性能;

为验证所提出算法在特定场景下的性能,本文设置了目标位置的概率分布来模拟真实的搜索场景。该概率分布是二维正态分布,其中均值为[10,25],协方差为[[40,20],[40,20]],如图9所示。

图片

图9 目标存在概率图

图10展示了为无人机生成的轨迹图,无人机战略性地通过目标出现概率较高的区域进行导航。通过该区域的智能探索,最大限度提高发现和定位目标的机会。此外,无人机还进入未探测区域,探索潜在目标。

图片

图10 3架无人机搜索仿真快照

结果表明,基于MADDPG的搜索方法能够有效地探索搜索空间,优化目标搜索任务,并在给定的时间约束内最大限度地提高目标的检测率。

最后,实验测试了所提出的基于MADDPG的方法和基于蚁群算法在不同的智能体数目下发现的目标数目,如图11所示。仿真实验设置目标数目为20,测试的智能体数目为{3,5,10}。可以看出,随着智能体数目的增加,两种算法的搜索速度都在增长。相同的时间步长下,该算法比基于蚁群算法的搜索算法能发现更多的目标;在相同的Agent数量下,该算法能更早地找到所有目标并完成搜索任务.图片

图11 使用不同数量的Agent找到的目标数量(n)

实验结果表明,与基于DQN和基于蚁群算法的多无人机协同搜索算法相比,本文方法具有明显的性能优势。具体而言,基于MADDPG的方法比其他两种方法具有更高的覆盖率,每百个时间步发现更多的目标,并且以更少的探索步骤发现所有目标。该方法优势主要在于其协作机制,允许无人机共享信息并协调行动,避免碰撞、提高效率。

结论

本文对无人机群搜索技术进行了研究。为了满足大规模场景的高可扩展性和高效协作的要求,将大规模搜索场景进行拆分,为无人机群算法训练提供局部信息。同时,本文提出了一种分布式协同无人机群搜索技术,利用多智能体强化学习来处理复杂的环境信息。实验结果表明,MADDPG算法适用于未知环境中多无人机的协同探测任务,有效地减少了探测冗余,提高了探测覆盖率,提高勘探任务效率。

喜欢 (0)