欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

RedTE: Mitigating Subsecond Traffic Bursts with Real-time and Distributed Traffic Engineering

互联网 hhx

ACM SIGCOMM ’24: Proceedings of the ACM SIGCOMM 2024 Conference

https://doi.org/10.1145/3651890.3672231

一、全文概述

RedTE是一种基于分布式多智能体深度强化学习的流量工程技术,旨在解决互联网流量突发导致的网络拥塞问题。传统流量工程系统由于控制环路延迟高(分钟级),无法有效应对毫秒级流量突发,而RedTE通过将控制环路延迟压缩至100ms以内,实现了对流量突发的实时响应。其核心创新包括:

1)将流量工程建模为分布式多智能体协作问题,利用全局评论网络解决多智能体学习中的稳定性问题;

2)提出循环流量矩阵回放机制,加速模型收敛;

3)设计考虑规则表更新时间的奖励函数,减少控制环路延迟。

实验表明,RedTE在真实广域网测试床和大规模网络仿真中,相比现有方法将最大链路利用率降低37.4%,平均队列长度减少78.9%,控制环路延迟低于100ms,且在链路故障和流量模式漂移场景下表现出鲁棒性。该技术为运营商提供了一种无需端到端协议改造的流量优化方案,通过网络层全局隧道级信息实现透明的拥塞缓解。

二、研究背景与动机

随着全球互联网基础设施的快速扩张,广域网(WAN)已成为连接分布式数据中心、云边缘节点及终端用户的核心纽带。在追求高吞吐量与低延迟的网络服务背景下,流量工程(Traffic Engineering, TE)作为优化网络资源利用率、规避链路拥塞的关键技术,经历了从传统的分布式协议向现代软件定义网络(SDN)架构的深刻演进。主流运营商及互联网巨头通过集中式控制器,利用全局拓扑视图进行精细化的流量路径规划,极大地提升了链路的平均负载均衡能力。然而,现代 WAN 承载的流量特征正表现出前所未有的时空复杂性。短视频流、云原生应用以及大规模数据中心间的同步任务,使得网络负载呈现出高度的波动性与不可预测性。这种动态化趋势对流量工程的敏捷性提出了严苛挑战,揭示了传统静态或预案驱动型调度模式在应对瞬态流量变化时的内在脆弱性。

当前集中式流量工程系统面临的最核心症结在于“控制回路时延”与“流量演变速度”之间的严重失配。研究表明,在真实的广域网环境中,大量流量突发(Traffic Bursts)发生在亚秒级(Sub-second)甚至毫秒级尺度上,这种瞬时负载剧增是导致链路瞬时拥塞、缓冲区溢出及数据包大量丢失的主要诱因。然而,现有的 B4、SWAN 等主流架构遵循“状态采集—中心决策—规则下发”的闭环流程,受限于网络传播时延与控制器计算开销,其控制周期通常维持在分钟量级。这意味着当控制器感知到拥塞并完成新路径计算时,流量突发可能早已引发了不可逆的网络性能崩溃。这种分钟级的决策响应速度与毫秒级的流量动态性之间存在着几个数量级的代差,导致中心化控制器在面对亚秒级突发时实际上处于“失控”状态,无法提供实时有效的流量整形支持。

为了弥补这一时间尺度上的缺口,迫切需要一种能够打破中心化瓶颈、实现亚秒级实时响应的新型流量工程框架。本研究的动力源于:如何在保持全局路径优化能力的同时,赋予边缘交换机在毫秒级内感知本地链路状态并动态调整流量分配比例的自主决策能力。传统的分布式方案往往因缺乏全局视图而导致收敛缓慢或局部震荡,而单纯的中心化方案又因物理时延无法做到实时响应。因此,开发一种能够实时监测链路微观状态、支持分布式快速反馈且能与全局慢速策略协同的实时流量工程系统(如 RedTE),成为了保障超大规模网络在高负载突发下具备韧性与性能稳定性的关键。这不仅是为了优化全网的平均利用率,更是为了在不可预测的波动中通过极速的路径重定向,捍卫关键业务的服务质量指标(QoS)与用户体验。

三、核心贡献

1. “全局统筹+局部决策”的双环路解耦架构

RedTE 架构最显著的创新在于突破了传统单一的中心化控制瓶颈,构建了一个两级协同控制环路。全局控制器(Global Controller)负责运行“慢速环路”,它基于全网拓扑计算出一组候选路径,确保宏观上的路径优化;而部署在交换机数据平面的分布式模块则负责“快速环路”,根据本地实时感知的链路拥塞程度,在毫秒级时间内动态调整流量在各候选路径上的分配比例。这种设计巧妙地解决了中心化 TE 计算时延大与分布式 TE 缺乏全局视野的矛盾,实现了“路径由全局定,比例由局部调”的高效协同。

2. 基于数据平面的亚秒级实时感测与动态切分

RedTE 创新性地将流量工程的决策逻辑直接下沉至可编程数据平面(Data Plane)。不同于传统方案依赖控制器轮询,RedTE 的交换机节点能够实时监控本地队列深度、出口带宽利用率等微观指标。当检测到突发流量导致链路负载剧增时,数据平面无需请求控制器的干预,即可通过内部的分布式算法即时更新哈希桶(Hash Buckets)的权重,将突发流量秒级重定向至较空闲的候选路径。这种在转发层实现的自适应能力,将流量工程的响应速度从分钟级提升至毫秒级,是其能够有效应对“亚秒级突发”的技术内核。

3. “静态路径、动态权重”的稳定性控制逻辑

在分布式决策中,防止流量在路径间剧烈震荡(Oscillation)是最大的难题。RedTE 的架构创新在于采用了“候选路径集合相对固定、流量切分权重动态演进”的策略。全局控制器下发的是经过优化的多条可用路径,而本地分布式算法则是在这些受限的路径集合内进行平滑的权重调整。由于不涉及全局路径拓扑的剧烈变动,系统能够确保在快速响应局部突发的同时,依然保持全网状态的平稳收敛,极大地降低了分布式决策可能带来的乱序包风险和配置震荡,兼顾了响应速度与控制稳定性。

4. 软硬件协同的轻量化分布式调度算法

RedTE 在架构实现上体现了极高的软硬件协同创新。为了在处理亚秒级流量时保持线速(Line-rate)转发性能,RedTE 提出了一种轻量级的分布式调整算法,该算法规避了交换机之间复杂的同步开销。通过在交换机内部维护一个紧凑的状态机,RedTE 能够仅凭本地感知的反馈信息,在不增加显著计算负担的情况下,做出逼近全局最优的流量调度方案。这种架构设计既适配了现有的 P4 可编程交换机,也为在大规模广域网中进行增量部署提供了可能。

5.核心算法:

(1) 基于 MADDPG 的稳定多智能体强化学习(MARL)算法

在复杂的网络拓扑中,单一中心化智能体往往面临状态空间爆炸和响应延迟的问题。MADDPG(Multi-Agent Deep Deterministic Policy Gradient) 算法通过“集中式训练、分布式执行(CTDE)”的架构,为每个边缘节点或交换机部署独立的智能体。这种设计的创新之处在于,它允许各智能体在推理阶段仅依赖本地感知的链路信息做出决策,从而满足网络环境对亚秒级实时性的严苛要求。

为了解决多智能体环境下的非平稳性(Non-stationarity)挑战,MADDPG 在训练阶段引入了全局评论家(Centralized Critic)。该评论家能够观察全网所有智能体的动作和全局状态,通过集中式评估来消除个体智能体因视野局限而导致的策略震荡。这种机制确保了在多路径流量分配过程中,各节点能够达成隐式的协同,有效规避了分布式决策中常见的“流量乒乓”效应和局部最优陷阱。

此外,为了进一步增强算法的稳定性,系统通常引入了目标网络(Target Networks)和软更新(Soft Update)机制。通过平滑地更新模型参数,算法能够抑制学习过程中的剧烈波动,确保策略在高动态的网络拓扑和突发流量下依然具有良好的鲁棒性。这种稳定性的提升对于保障大规模广域网(WAN)在极端负载下的确定性传输至关重要。

(2) 精细化的奖励函数(Reward Function)设计

奖励函数是驱动强化学习模型收敛的核心“指挥棒”。在流量工程场景下,奖励函数的设计旨在平衡网络吞吐量、最大链路利用率(MLU)与服务质量(QoS)。一个典型的设计思路是采用负相关的惩罚项,例如将奖励定义为全网平均链路空闲度的加权和。当 MLU 接近临界阈值时,奖励值会呈指数级下降,从而迫使智能体学习如何通过路径重定向来主动“削峰填谷”,降低网络拥塞风险。

为了提升算法对细微网络波动的感知能力,奖励函数通常还会集成拥塞距离和排队延迟等二阶指标。通过引入非线性的效用函数(如对数或指数函数),可以将不同量纲的指标归一化到统一的奖励标尺中。这种多目标的综合建模不仅能引导模型优化宏观的资源分布,还能针对亚秒级的瞬时突发流量提供敏感的反馈,确保模型在复杂流量模式下依然能维持较高的收敛质量。

最后,奖励函数还需考虑策略的平滑性约束。在设计中,通常会加入一项针对“动作变化量”的惩罚(Action Penalty),防止智能体在相邻的时间步内对流量切分比例做出过于剧烈的调整。这种约束不仅能减少网络配置频繁变动带来的震荡风险,还能有效降低数据包重排(Packet Reordering)的概率,从而在优化网络资源利用率的同时,捍卫了端到端的用户体验稳定性。

(3)带循环流量矩阵(TM)回放的 RL 训练机制

网络流量具有显著的周期性(Cyclicity)与时空关联性,例如日昼更替的流量高峰和周末模式。带循环 TM 回放的训练机制通过构建一个高保真的“流量沙盒”,按时间序列循环回放真实世界中的历史流量快照。这种训练方式的优势在于,它能让智能体在受控的环境中反复学习流量演进的内在规律,从而建立起针对周期性网络行为的“预测性策略”,提前在高峰到来前完成资源预分配。

在具体的实现中,系统引入了时间敏感的经验回放缓冲区(Temporal-aware Replay Buffer)。不同于传统的随机采样,该机制会保留流量的时间序列特征,允许模型通过循环学习来识别特定时间点(如午间流量激增或午夜数据备份)的流量特征。通过在训练过程中不断模拟这些循环往复的压力测试,RL 智能体能够学习到具有长时记忆的特征表达,显著提升了模型在面对类似周期性波动时的泛化性能。

此外,循环回放机制还结合了对抗性扰动采样。在标准循环 TM 的基础上,训练过程会随机叠加亚秒级的瞬时突发噪声,以模拟现实中不可预测的流量冲击。这种“循环模式+随机突发”的混合训练范式,使得模型既能掌握全局的周期性规律,又具备应对极端异常情况的防御能力。最终,经过循环 TM 充分“打磨”的模型,能够在真实部署环境中表现出极高的适应性与鲁棒性。

RedTE: Mitigating Subsecond Traffic Bursts with Real-time and Distributed Traffic Engineering插图2

四、实验验证与结果

在 NS3 模拟器和真实的 WAN 拓扑上进行了广泛测试:

  • 最大链路利用率(MLU):相比于现有的中心化 TE(如 TEAL, DOTE),RedTE 能显著降低 MLU,避免链路过载。
  • 丢包率与延迟:在处理剧烈的亚秒级突发流量时,RedTE 的丢包率降低了数倍,极大地提升了网络性能的稳定性。
  • 控制回路延迟:实验数据显示,RedTE 的本地控制回路延迟极低(通常在 1-5ms 左右),证明了其实时性。
RedTE: Mitigating Subsecond Traffic Bursts with Real-time and Distributed Traffic Engineering插图3

五、思考与总结

5.1 优点

  • 高效性:成功解决了广域网中“控制时延”大于“流量变化时延”的根本矛盾。
  • 部署性:由于其基于分布式逻辑,可以较好地兼容可编程数据平面(如 P4 交换机)。
  • 鲁棒性:分布式决策避免了单点故障导致的全网配置失效。

5.2 局限性

  • 局部收敛性:虽然分布式算法很快,但在极其复杂的拓扑下,如何确保多个局部决策不会导致全网震荡(Oscillation)仍是需要长期关注的问题。
  • 硬件要求:需要在交换机侧实现更复杂的监控和计算,对底层网络设备的性能有一定要求。

5.3 总结

该文章针对现代广域网(WAN)中由于亚秒级流量突发导致的链路拥塞与丢包问题,提出了一种创新的实时分布式流量工程框架。研究指出,传统中心化流量工程(TE)受限于“采集-计算-下发”的分钟级控制回路,无法及时响应毫秒量级的瞬时流量波动,导致网络在面对突发负载时性能大幅退化。为此,RedTE 引入了“全局统筹与局部自适应协同”的解耦架构:全局控制器仅负责长周期的基础路径规划以确保全局优化,而将关键的流量切分决策权下放至可编程数据平面。这种设计将 TE 的响应时间从分钟级跨越式地压缩至毫秒级,使网络具备了类似“神经反射”般的实时调整能力,从根本上解决了控制时延与流量动态性之间的严重失配矛盾,为大规模广域网的高可靠性传输提供了全新的架构范式。

在技术实现与算法逻辑上,RedTE 通过轻量级的分布式迭代算法,在交换机内部实现了对链路拥塞信号的实时感测与闭环调节。该算法不仅依赖本地直连链路的队列深度等微观指标,还巧妙地利用多跳反馈机制获取路径深处的拥塞状态,从而在入口节点即可实现精准的流量重定向。为了确保系统的稳定性,算法引入了步长控制机制,有效规避了分布式决策中常见的流量震荡与“乒乓效应”。实验结果表明,在多种真实广域网拓扑及高动态流量负载下,RedTE 相比于 TEAL、DOTE 等现有最先进方案,能显著降低最大链路利用率(MLU)并大幅减少因突发流量引起的丢包。RedTE 的成功不仅证明了通过软硬件协同将复杂决策逻辑下沉至转发层的可行性,也为未来构建具备极高弹性、亚秒级感知力与自治能力的智能自愈网络奠定了坚实的技术基础。

RedTE: Mitigating Subsecond Traffic Bursts with Real-time and Distributed Traffic Engineering插图4

喜欢 (0)