欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

Hattrick: Solving Multi-Class TE using Neural Models

互联网 hhx

SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portugal

Conference Sponsors: SIGCOMM

https://dl.acm.org/doi/10.1145/3718958.3750470

一、研究背景与动机:多优先级流量工程的兴起

在现代超大规模广域网(WAN)中,流量不再被视为单一类别,而是根据业务需求被划分为不同的优先级(如高、中、低)。例如,视频会议和实时控制信令属于高优先级,而后台数据备份则属于低优先级。这种多优先级流量工程(Multi-Class TE, MC-TE)的核心目标是在确保高优先级流量绝对优先的前提下,最大化网络资源的整体利用率。

然而,现有的流量工程方案面临严峻挑战。传统的线性规划(LP)方法虽然能求得最优解,但在面对大规模网络拓扑时,计算耗时通常达到分钟级,无法适应网络状态的瞬时波动。而近年来兴起的基于深度学习的流量工程模型,大多仅针对单一类别流量设计,难以处理多优先级之间严格的层次约束和复杂的优先级抢占逻辑。

二、核心挑战:严苛约束下的神经模型设计

将神经网络应用于 MC-TE 面临两个主要瓶颈:首先是严格的优先级保障。在高负载情况下,系统必须确保低优先级流量不会挤占高优先级流量的带宽,这种“硬约束”在端到端的神经模型中极难实现。其次是泛化性与规模化问题。生产环境中的拓扑结构和流量模式(TM)处于动态变化中,神经模型必须在保证计算效率的同时,具备跨拓扑的鲁棒性。

现有的神经模型在处理 MC-TE 时,往往通过简单的加权奖励函数来区分优先级,这在实际部署中会导致高优先级流量的性能受损。此外,多优先级任务会导致解空间呈指数级增长,普通的图神经网络(GNN)架构难以在有限的推理时间内收敛到能与 LP 最优解媲美的分配方案。

三、Hattrick 系统架构:多阶段神经调度

Hattrick 提出了一种创新的多阶段并行神经架构,其设计灵感来源于解决 MC-TE 的多阶段线性规划思路。系统将复杂的调度问题分解为多个子任务,每个阶段对应一个流量等级。第一阶段专门负责为高优先级流量分配路径;随后,在固定高优先级分配结果的基础上,后续阶段依次为中、低优先级流量寻找剩余带宽中的最优路径。

该架构的核心是基于图神经网络(GNN)的编码-解码结构。它能够捕捉网络拓扑中链路与节点之间的复杂空间依赖关系。Hattrick 通过这种多阶段的设计,不仅在逻辑上模拟了优先级的层次感,还显著降低了单个模型的学习难度。通过这种“分而治之”的策略,Hattrick 成功地将多优先级约束内化到了模型的结构中,而非仅仅依靠损失函数进行引导。

Hattrick: Solving Multi-Class TE using Neural Models插图

四、关键创新点:分层损失与快速推理

Hattrick 的一大技术突破在于其分层损失函数(Hierarchical Loss Function)。为了确保模型能够收敛到符合优先级规则的解,团队设计了一套能够反映 MC-TE 目标的复合奖励机制。它强制要求模型在优化整体吞吐量的同时,对违反高优先级带宽保障的行为施加严厉惩罚。这种设计使得模型在无监督训练过程中,能够自动习得复杂的路径切换策略,以应对链路故障或流量激增。

在性能提升方面,Hattrick 实现了近乎实时的推理速度。与传统的 LP 求解器相比,Hattrick 的决策速度提升了 100 倍以上,将原本需要分钟级的计算缩短至秒级甚至毫秒级。这种极致的效率使得网络管理员能够以更高的频率进行流量重路由(Re-routing),从而极大地增强了广域网应对亚秒级突发流量的韧性。

Hattrick: Solving Multi-Class TE using Neural Models插图1
Hattrick: Solving Multi-Class TE using Neural Models插图2

五、实验评估:Meta 生产环境的验证

论文利用 Meta 公司真实的广域网拓扑和流量数据集对 Hattrick 进行了严苛测试。实验结果表明,在多组复杂的网络拓扑下,Hattrick 输出的流量分配方案在性能上高度逼近 LP 的理论最优解(Gap 通常在 5% 以内)。更重要的是,它在确保高优先级流量零丢包方面,表现远优于现有的其他神经模型方案。

此外,研究团队还验证了 Hattrick 的拓扑泛化能力。当网络中出现链路断开或新增节点时,预训练好的 Hattrick 模型无需重新训练即可做出合理的调度决策。在与 DOTE、TEAL 等业界前沿方案的对比中,Hattrick 在处理多等级业务需求时展现出了压倒性的稳定性优势,证明了其在工业级生产环境中的部署潜力。

Hattrick: Solving Multi-Class TE using Neural Models插图3
Hattrick: Solving Multi-Class TE using Neural Models插图4
Hattrick: Solving Multi-Class TE using Neural Models插图5

六、总结与总结:迈向智能化的算网调度

Hattrick 的出现标志着流量工程研究从“通用化优化”向“精细化业务感知”的跨越。它证明了通过巧妙的架构设计,深度学习模型不仅可以跑得快,更可以处理复杂的业务优先级约束。对于未来构建超大规模、具备业务自适应能力的 AI 集群网络和云广域网,Hattrick 提供了极其重要的设计参考。

对于您的研究方向(如 Mamba-NDP 框架),Hattrick 在多优先级处理利用 GNN 捕获网络拓扑语义方面的思路具有很强的借鉴意义。特别是它如何通过多阶段结构解决“硬约束”问题的经验,可以直接启发您在多维度知识蒸馏和 MoE 架构中,如何更好地权衡不同任务或专家之间的优先级。

喜欢 (0)