Abstract
近期研究表明,基于机器学习的方法是流量工程(TE)中传统优化方法的有前景替代方案,但现有研究仍局限于单一流量类别。Abd AlRhman AlQiam 等人提出的 Hattrick,是首个能够处理对于云服务提供商和 ISP 的广域网(WAN)而言至关重要的多种流量类别能力的机器学习方法。作为 Hattrick 的一部分,其设计了:(i) 一种新的神经网络架构,使其与多类别 TE 中一系列优化问题的顺序相匹配;(ii) 一种改进的经典多任务学习方法,用于应对优化具有先后顺序关系的多个指标这一独特挑战。在大型私有 WAN 以及其他公共数据集上的评估结果表明,Hattrick 的性能优于当前最先进的基于优化的多类别 TE 方法,其优势来自于更好地处理预测误差。例如,在 GEANT 网络中,当考虑能够支持 99% 时间的流量时,Hattrick 在不同类别上比 SWAN 提升了 5.48% 至 19.3%。
贡献点一:A multi-stage neural architecture
设计的多阶段神经架构由一系列循环单元组成,这些单元按照优先级顺序依次优化各流量类别,与许多基于优化的多类别 TE 方法的流程一致。值得注意的是,该架构允许后续阶段在前一阶段为高优先级流量做出的路由决策基础上进行进一步调整,使得系统在不牺牲高优先级流量性能的前提下,更灵活地容纳低优先级流量。

贡献点二:Prioritizing performance under prediction error
预测误差是先前多类别 TE 方案中受到较少关注但却十分关键的问题。为解决这一点,Hattrick 明确旨在优化能反映预测不确定性潜在影响的关键性能指标,例如链路利用不足或容量违规。通过将可微分的、具备类别感知能力的流量模拟器无缝融入训练中,Hattrick 能更真实地建模这些不利影响。与依赖黑箱模拟器的传统 ML 方法相比,这种方式显著增强了 TE 在预测不确定性下的鲁棒性与可靠性。
贡献点三:Hattrick addresses the challenge of optimizing multiple,potentially conflicting objectives across traffic classes.
现有多任务学习方法通常假设各任务同等重要,而这一假设在多类别 TE 中并不成立,因为不同流量类别之间存在严格的优先级关系。为克服这一限制,Hattrick 引入了一种基于梯度投影的新技术,确保对低优先级流量的更新不会影响高优先级流量的优化表现。该方法提升了性能,并优于传统的多任务学习方法,为 ML-based TE 提供了更有效、更高效的方案。
实验:在 PrivateWAN 和 GEANT数据集上,将 Hattrick 与当前最先进的多类别 TE 方案(SWAN 和 BEST_MC)进行比较。
- GEANT

- PrivateWAN

在 GEANT 和 PrivateWAN 两种网络拓扑下, Hattrick 的流量工程方案表现接近最优,并显著优于 SWAN 和 BEST_MC。具体来看,在 GEANT 环境中,其 10 %位和 1 %位的 NormFulFill 指标在三类流量中几乎达到1.0,而 SWAN 和 BEST_MC 较低;在 PrivateWAN 中,所有方案整体表现更佳,Hattrick 仍保持领先,尤其在低和中优先级流量的 10 %位指标上优势明显。总的来说,Hattrick 通过学习型 TE 方法有效弥补预测误差,并在多优先级流量调度中兼顾各类流量需求,从而超越传统优化方案。