A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network

1. 摘要（Abstract）

本文研究的是大模型推理中的通信瓶颈问题，具体聚焦在 Tensor Parallelism（TP）推理场景下的 All-Reduce 加速。随着 LLM 参数规模不断扩大，单个 GPU 很难独立完成低延迟推理，多加速器并行已经成为常态。但在 TP 推理中，每一层 attention 和 MLP block 后通常都需要 All-Reduce，同步各个加速器上的中间结果。这些通信操作直接位于推理关键路径上，无法像训练反向传播那样较好地与计算重叠，因此会明显拖慢端到端推理速度。

现有方案中，NVIDIA NVLink SHARP（NVLS）已经把部分 reduction 操作下沉到交换机中执行，但它仍然属于 accelerator-centric 架构：由 GPU 发起 load 指令触发交换机内 reduction，结果还要先返回发起 GPU，再由 GPU 推送回交换机进行广播。这会造成额外数据往返。同时，NVLS 依赖 memory-semantic instructions，难以支持更灵活的网络内操作，例如本文提出的 in-network quantization（INQ）。

针对这些问题，论文提出 SCIN（Switch-Centric In-Network Architecture），即一种面向多加速器共享内存网络的交换机中心式网络内计算架构。SCIN 的核心是把一个 In-Switch Accelerator（ISA）放到交换机中，由 ISA 主动访问各加速器内存、执行 All-Reduce，并把结果直接写回参与设备。这样可以减少冗余数据移动和同步开销。同时，ISA 内部还加入量化模块，使 All-Reduce 可降到 8-bit 精度，接近实现 2 倍通信压缩，且几乎不损失模型精度。

实验方面，作者实现了一个多 FPGA 原型系统，并用该原型校准网络模拟器。在 8-GPU 系统模拟中，SCIN 相比软件 ring All-Reduce，小消息最高加速 8.7×，大消息最高加速 3.8×；在 LLaMA-2 模型上，最高带来 1.74× TTFT 加速和 1.34× TPOT 加速。整体来看，这篇论文不是单纯优化一个通信算法，而是从系统架构层面重新思考：大模型推理中的 collective communication 是否应该由 GPU 主导，还是应该真正交给交换机来主导。

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图

2. 研究背景与问题动机（Introduction）

LLM 推理对多加速器系统的依赖越来越强。一方面，大模型参数量和 KV cache 占用不断增长，单卡显存很难承载；另一方面，线上推理又要求较低延迟，因此需要通过 tensor parallelism 把矩阵计算切分到多个加速器上执行。TP 的好处是降低单个加速器的计算和存储压力，但代价是每层都会引入大量 All-Reduce 通信。论文指出，在 TP 推理中，每个 transformer layer 通常会在 attention 和 MLP 后各进行一次 All-Reduce。

这个问题在推理阶段尤其严重。训练中的梯度 All-Reduce 有时可以和反向传播计算重叠，但推理中的 All-Reduce 位于前向计算关键路径上，GPU 必须等通信完成后才能继续执行下一层。因此，通信延迟会直接转化为用户感知的推理延迟。论文中还区分了两个推理阶段：prefill 阶段 All-Reduce 消息大，更偏带宽瓶颈；decode 阶段 All-Reduce 消息小但次数多，更偏延迟瓶颈。也就是说，好的互连系统必须同时满足高带宽和低延迟。

现有 NVLS 通过在 NVSwitch 中执行 reduction，已经比纯软件 ring All-Reduce 更进一步。但它的问题在于，架构仍然围绕 GPU 展开。GPU 先发起 pull request，交换机完成 reduction 后，结果必须返回 GPU，再由 GPU 发起 push request 做广播。这种路径天然多了一次无用数据传输。此外，由于 NVLS 通过 GPU memory instruction 触发网络内操作，它能支持的操作类型有限，无法很好地支持 INQ 这类更复杂的网络内处理。

本文的动机正是：如果 All-Reduce 的主要瓶颈已经发生在网络中，那么是否应该让交换机真正成为执行主体？SCIN 的回答是肯定的。它把架构从 GPU 主导转向交换机主导，让 ISA 主动读写加速器内存，完成 reduction、quantization 和结果写回。这个设计本质上是在把交换机从“转发设备”升级成“推理通信路径上的主动计算节点”。

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图1

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图2

3. 系统架构与整体设计（System Overview）

SCIN 的核心设计是 switch-centric in-network computing。与 NVLS 不同，SCIN 不再让 GPU 发起和调度整个 All-Reduce，而是在交换机中加入 In-Switch Accelerator（ISA）。ISA 可以通过共享内存网络直接访问连接在交换机上的加速器内存，主动发起 read request，收集数据后在交换机内部完成 reduction，再直接把结果写回到各参与加速器。

这个设计带来几个直接好处。第一，减少冗余传输。NVLS 中 reduction 结果要先回到发起 GPU，再广播给其他 GPU；SCIN 则可以在交换机内完成 reduction 后直接广播或写回，减少数据绕路。第二，降低同步开销。由于 ISA 位于交换机中心，端点加速器只需和交换机同步，不需要经过额外的 GPU 间协调路径。第三，释放加速器资源。SCIN 把 collective operation 尽可能下沉到 ISA，GPU 只负责轻量同步，更多资源可以留给模型计算。

SCIN 的另一点重要设计是可定制 ISA data plane。作者不仅用它做普通 All-Reduce，还在 ISA pipeline 中加入 quantization/dequantization 模块，实现 INQ All-Reduce。这使得 All-Reduce 可以在网络内被压缩到 8-bit，减少通信量。相比 ring-based quantization 需要随着 TP size 增加进行多轮量化，SCIN 的 INQ 只引入一次额外量化，因此更容易控制误差。

整体来看，SCIN 的架构不是单点优化，而是围绕 TP 推理的两个瓶颈分别处理：decode 阶段通过减少网络跳数和同步延迟解决小消息低延迟问题；prefill 阶段通过 INQ 减少大消息通信量，解决带宽问题。这一点是它比普通通信优化更完整的地方。

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图3

4. 关键技术设计（Design and Implementation）

SCIN 的实现主要解决三个问题：协议如何支持 ISA 访问加速器内存、ISA 如何与加速器同步、交换机内部如何高效完成乱序数据处理与 All-Reduce。

首先是协议扩展。传统交换机协议主要负责 packet forwarding，但 SCIN 要让 ISA 直接参与 memory transaction。为此，作者没有大幅重写协议，而是在 packet header 中加入一个 1-bit INC flag，用来区分普通转发流量和 ISA 相关流量。交换机端口内部将队列拆成两组：一组服务普通 switch forwarding，一组服务 ISA memory transaction。这样既支持 ISA 主动访问加速器内存，又尽量减少对原有网络功能的干扰。

其次是同步机制。TP 推理中的 All-Reduce 位于 attention 和 MLP 之间，任何同步等待都会进入关键路径。SCIN 中，加速器完成前一段计算后，会对 ISA 中的同步计数器做 atomic increment，然后等待本地 flag。ISA 看到所有参与者都到达后，执行 All-Reduce；完成写回后，再通知各加速器继续计算。相比 accelerator-centric 方法需要 GPU 间通过交换网络同步，SCIN 把同步路径缩短到加速器与交换机之间的一跳，因此同步延迟更低。

第三是 ISA 内部的数据流设计。由于多个加速器的 DMA 并发访问会导致数据包乱序返回，ISA 需要提前预留 buffer，并把返回数据放到正确位置。论文提出 wave-based regulation：把大请求拆成多个 wave，每个 wave 占用一部分 buffer，并允许多个 wave 同时在网络中 outstanding。这样可以在有限 buffer 下隐藏同步空隙，提高带宽利用率。ISA 内部通过 wave controller 和 wave table 管理请求发出、数据缓存、reduction、写回和资源释放。

最后是 INQ All-Reduce。作者采用 block-wise quantization，每 64 个 hidden dimension 元素共享一个 scale factor。执行时，ISA 先读取 scale factor 和 activation，再在 pipeline 中完成 dequantization、reduction 和 quantization。这个方案的关键不是“量化”本身，而是量化发生在交换机内，且只发生一次，因此不会像 ring-based 方法那样随着通信轮数累积误差。

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图4

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图5

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图6

5. 原型系统与实验设置（Prototype and Methodology）

为了证明 SCIN 不是纯概念设计，作者实现了一个多 FPGA 原型系统。该原型包含 4 个 endpoint FPGA，用来模拟加速器，以及 1 个 switch FPGA，用来实现交换机和 ISA。系统使用 AMD Aurora IP 实现物理层和链路层，传输层则按照不同 memory transaction 类型设置独立 buffer，并使用 credit-based flow control。

在原型中，每条链路由 4 条 GT lane 组成，每条 lane 提供 32 Gbps 双向带宽，因此每条 link 的聚合双向带宽为 128 Gbps。系统 flit size 为 32B，运行频率为 250MHz，wave size 设置为 4KB。原型测得 4KB 消息 All-Reduce 延迟为 2.62 μs，16MB 消息延迟为 2.27 ms；大消息下 All-Reduce 带宽利用率达到 92.4%。这说明 SCIN 的数据通路在真实硬件上可以跑起来，并且带宽利用率较高。

不过，FPGA 原型在带宽和规模上无法直接等价于真实 GPU 集群。因此作者进一步构建了一个 cycle-level network simulator，并用 FPGA 原型结果进行校准。校准后，模拟结果和实测结果误差低于 6%，说明这个模拟器可以用于评估更大规模、更接近实际部署的 8 加速器系统。

计算侧，作者基于 TensorRT-LLM 对 LLaMA-2 模型在 H200 GPU 上进行 profiling，再结合网络模拟器评估 SCIN 对端到端 TP 推理的影响。量化评估则基于 SmoothQuant 代码框架，测试 INQ All-Reduce 对多个模型和多个任务精度的影响。

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图7

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图8

6. 实验结果与性能分析（Evaluation）

首先是 INQ 的精度影响。作者比较了 INQ All-Reduce 和 ring-based quantized All-Reduce（RQ）。结果显示，在 INT8、block size=64 的设置下，INQ 基本保持 FP16 baseline 的 perplexity，仅有极小退化；在 INT4 更激进的设置下，INQ 也明显优于 RQ。这说明 SCIN 的网络内量化确实比 ring-based 多轮量化更稳定，因为它避免了量化误差随 TP 通信轮数反复累积。

进一步的多模型精度实验也支持这一点。作者在 LLaMA-2-7B、LLaMA-2-13B、Mistral-7B、Mixtral-8x7B 等模型上测试 8-bit INQ All-Reduce，任务包括 MMLU 和多个 commonsense QA benchmark。总体结果显示，INQ 在 FP16 和 FP8 模型上都只带来极小精度波动，有些任务甚至略有提升。因此，本文最终选择 INT8、block size=64 作为默认方案，用接近无损的方式换取接近 2 倍通信压缩。

其次是 All-Reduce 带宽和延迟。模拟结果显示，SCIN 在大消息场景下可以接近最大 payload bandwidth；INQ All-Reduce 由于减少通信量，在等效带宽上进一步提高。与软件 ring All-Reduce 相比，SCIN 对小消息和大消息都有明显加速，小消息最高达到 8.7×，大消息最高达到 3.8×。这分别对应 decode 阶段的低延迟需求和 prefill 阶段的高带宽需求。

作者还专门评估了 wave regulation。没有 wave regulation 时，即使 buffer 能覆盖 round-trip latency，也只能达到大约 2/3 总带宽；加入多 wave 机制后，随着 wave 数增加，带宽明显提升，并且 16 waves 基本足以支撑满带宽。这个实验说明，SCIN 的性能并不只是来自“把计算放到交换机里”，还依赖于 ISA 内部对 buffer、请求和返回数据的细粒度调度。

最后是端到端 LLM TP inference。作者在 LLaMA-2 系列模型上评估 SCIN 对 TTFT 和 TPOT 的影响。结果显示，在 FP16 下，SCIN 最高带来 1.52× TTFT 和 1.29× TPOT 加速；在 FP8 下，由于计算更快、通信占比更高，SCIN 的收益更明显，最高达到 1.74× TTFT 和 1.34× TPOT。这也说明一个趋势：未来 GPU 算力继续提升后，通信会越来越成为瓶颈，SCIN 这类网络内计算架构的价值可能会进一步放大。

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图9

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图10

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network插图11

7. 贡献与结论（Contributions and Conclusion）

本文的主要贡献可以概括为四点：

（1）提出 SCIN，即首个面向多加速器共享内存网络的 switch-centric in-network computing 架构，用交换机中心式设计替代传统 accelerator-centric 设计。

（2）设计 In-Switch Accelerator（ISA） 及其配套通信机制，使交换机能够主动访问加速器内存、执行 All-Reduce，并直接写回结果，从而减少冗余数据传输和同步开销。

（3）提出 In-Network Quantization（INQ），在 ISA 内部完成 All-Reduce 量化，将通信精度降至 8-bit，实现接近 2 倍通信压缩，同时几乎不损失模型精度。

（4）实现多 FPGA 原型，并通过校准模拟器在更大规模系统中评估，最终在 LLaMA-2 TP 推理中取得明显 TTFT 和 TPOT 加速。

这篇论文的研究问题抓得比较准。它没有停留在“通信慢，所以优化通信算法”这一层，而是进一步指出：现有网络内计算架构本身仍然被 GPU 主导，导致数据路径、同步路径和可支持操作都受限制。SCIN 的关键价值就在于把 collective communication 的控制权从 GPU 侧转移到 switch 侧，让交换机真正承担起推理通信路径中的计算和调度功能。

从系统意义上看，这篇工作也反映了一个趋势：未来大模型推理优化不只是模型压缩、kernel 优化或调度策略问题，互连网络本身也会成为 AI 系统设计的一部分。SCIN 的贡献不是单纯让 All-Reduce 更快，而是提供了一个更有扩展性的方向：在 shared-memory accelerator network 中，通过交换机内可编程计算，把通信、量化和同步一起协同优化。