欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane

互联网 hhx

SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portugal

1. 课题背景与现有方案的局限性

随着网络流量的爆炸式增长,在数据平面直接进行实时智能分析已成为必然趋势。然而,现有的研究方案在应对复杂的深度学习(DL)模型时面临严重的性能瓶颈。传统的“计算简化”类方案,如 N3IC 等,主要依赖于对神经网络进行极度的量化或二值化处理,虽然这降低了对交换机算力的要求,但由于丢失了大量的特征数值精度,导致其在处理复杂分类任务时的准确率大打折扣。这种方案往往只能处理非常简单的线性任务,一旦面对具有复杂非线性特征的流量数据,其预测结果的可靠性便无法满足工业级网络安全和管理的需求。

与此同时,另一种“计算绕过”类方案,如 BoS,试图通过预先存储输入到输出的映射表来完全避免实时计算。这种方法的致命缺陷在于其极差的扩展性:随着输入特征维度的增加,可能的组合空间呈指数级膨胀,这在学术上被称为“组合爆炸”问题。由于交换机的内存资源(如 SRAM 和 TCAM)极其宝贵且容量固定,这类方案往往只能支持极小规模的输入,无法应对现代网络协议中动辄数百比特的报文特征。因此,业界迫切需要一种既能保证计算精度,又能在线速环境下处理大规模、高维度输入的通用推理框架,这正是 Pegasus 课题的研究起点。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图

2. Pegasus 核心原语体系的设计逻辑

Pegasus 的核心贡献在于将复杂的深度学习计算抽象为三个基础原语:Partition(划分)、Map(映射)和 SumReduce(和归约)。Partition 原语的作用是将高维度的输入特征向量切分为多个低维的子向量,这种“分而治之”的策略能够将原本无法在单次匹配中完成的超大规模空间映射降维。Map 原语则利用交换机的匹配-动作表(MAT)并行查找每个子向量对应的中间计算结果。SumReduce 原语负责将这些分散的中间结果进行分层聚合,最终在交换机流水线的出口处输出完整的推理结论。这种原语化的设计逻辑,将 DL 运算从昂贵的浮点数矩阵运算转化为了交换机擅长的多级查表操作。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图1

为了进一步优化资源利用率,Pegasus 引入了创新的“模糊匹配”(Fuzzy Matching)技术。它不再追求输入值的完全精确匹配,而是通过聚类算法将相近的输入值映射到同一个质心索引(Fuzzy Index)上。这种设计不仅极大地压缩了映射表所需的存储空间,还赋予了框架处理连续数值特征的能力。此外,通过“原语融合”(Primitive Fusion)技术,Pegasus 能够将诸如批归一化(Batch Normalization)、激活函数(ReLU/Sigmoid)和线性变换等多个连续的神经元操作合并到同一组映射表中完成。这种融合策略极大地节省了交换机的流水线阶段(Stages),使得在有限的硬件步数内执行更深层、更复杂的网络模型成为可能。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图2

3. 支持多样化模型架构的通用性实现

Pegasus 不仅仅是一个针对特定任务的插件,而是一个具备高度通用性的框架,能够支持 MLP(多层感知机)、RNN(循环神经网络)、CNN(卷积神经网络)以及 AutoEncoder(自动编码器)等多种主流模型。在实现 CNN 时,Pegasus 巧妙地将卷积层的滑动窗口操作转化为数据平面上的字段偏移处理,通过 Map 原语并行提取空间特征;在处理 RNN 等具有时间序列特性的模型时,框架利用交换机内的寄存器(Registers)来存储隐藏状态(Hidden State),实现了跨报文的信息传递。这种对不同模型算子的灵活解构,证明了 Pegasus 作为底层推理引擎的强大普适性。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图3

在软件层面,Pegasus 提供了一套完整的编译器套件,能够将用户训练好的 PyTorch 或 TensorFlow 模型自动转换为 P4 代码和对应的流表项。这一过程包括了自动化的量化策略、原语映射算法以及流水线资源调度优化。开发者无需深入了解交换机底层复杂的硬件逻辑,只需提供标准模型,Pegasus 就能在保证延迟和吞吐量的前提下,自动完成从高层算法到低层硬件配置的映射。这种“算法到硬件”的端到端自动化能力,极大地降低了在网络设备上部署深度学习算法的门槛,使得网络工程师能够像在 GPU 上一样灵活地部署 AI 策略。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图4
Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图5

4. 实验评估与性能指标分析

研究团队在真实的 Barefoot Tofino 硬件交换机上对 Pegasus 进行了严格的评估,覆盖了多个权威的网络流量数据集。实验数据表明,Pegasus 在所有测试的模型架构中均表现出显著的优越性,其预测精度相比之前的最先进方案(SOTA)平均提升了 22.8%。特别是在处理涉及长序列、高维特征的入侵检测和协议识别任务时,由于其采用了模糊匹配和混合精度技术,Pegasus 能够在极低的硬件开销下,保持与离线服务器端推理几乎一致的准确率。这种精度的跃升,标志着数据平面推理从“可用”真正走向了“可靠”。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图6

在资源扩展性方面,Pegasus 展现出了碾压性的优势。相比于 BoS 等方案,它支持的模型参数量扩大了 248 倍,输入维度支持能力提升了 212 倍。在吞吐量方面,Pegasus 成功实现了线速处理,即使是在满负荷的 Tbps 级网络环境中,其引入的额外延迟也仅在微秒量级,完全可以忽略不计。此外,实验还通过对比不同数量的质心(Centroids)对精度的影响,验证了框架在资源限制与性能表现之间的良好平衡。这些量化指标充分证明了 Pegasus 是目前已知唯一能够同时兼顾高吞吐、低延迟、高精度和强扩展性的数据平面 AI 推理方案。

Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图7
Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane插图8

5. 结论与未来研究价值

Pegasus 的成功研发彻底改变了业界对可编程交换机“计算能力贫瘠”的固有认知。它证明了虽然交换机的指令集极其简化,但通过巧妙的抽象建模和原语重构,同样可以承载原本属于 GPU 的深度学习负载。Pegasus 提供了一套标准化的设计范式,将网络领域的需求与 AI 领域的计算力进行了完美的工程衔接。它不仅为实时的网络流量清洗、智能路由控制和动态拥塞管理提供了技术基础,也为未来“网络即计算”(Network-as-Computing)的愿景提供了极具说服力的实践范例。

从更深远的意义来看,Pegasus 的开源和推广将推动智能数据平面生态系统的发展。它所提出的模糊匹配和原语融合思想,可以被进一步借鉴到其他资源受限的硬件环境(如边缘计算设备或嵌入式 FPGA)中。未来的研究方向可能包括如何在 Pegasus 框架下实现模型的动态在线更新,以及如何进一步支持更加前沿的 Transformer 等注意力机制模型。总而言之,Pegasus 是数据平面智能化进程中的一座里程碑,它为构建更安全、更高效、更具感知力的下一代未来网络奠定了坚实的算法与架构基石。

喜欢 (0)