欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism

互联网 hhx

SIGCOMM 2025

1. 研究背景与核心痛点:MoE 推理的效率瓶颈

随着大语言模型进入“万亿参数时代”,混合专家模型(Mixture-of-Experts, MoE)因其能在增加参数量的同时保持较低的激活计算量,成为了构建超大规模模型的首选架构。然而,在实际推理场景中,MoE 模型面临着严峻的挑战。传统的推理系统通常将注意力机制(Attention)和全连接层(FFN/Experts)绑定在同一块 GPU 上处理,这种“耦合架构”导致了严重的资源错配:Attention 模块通常是计算密集型的,而 MoE 中的专家层(FFN)由于其稀疏激活的特性,转变为显存带宽密集型(Memory-bound),导致 GPU 利用率低下,运营成本高昂。

此外,MoE 模型的专家并行(Expert Parallelism)在大规模部署时会产生巨大的全开销通信(All-to-All communication)。在传统的耦合并行策略下,这种通信开销往往与计算重叠不足,进一步拉长了推理延迟。对于像 DeepSeek-V3 这样拥有数百个专家的模型,如何在保证吞吐量的同时降低延迟,并解决专家负载不均(Expert Unbalance)带来的长尾效应,是当前分布式推理领域亟待解决的底层难题。

MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图
MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图1

2. 核心创新:专家并行与注意力机制的解耦(Disaggregation)

MegaScale-Infer 提出了一个革命性的系统框架,其核心思想是“注意力与专家的解耦部署”。该系统将模型每一层中的 Attention 模块和 FFN 专家模块剥离,分别部署在不同的 GPU 资源池中。这种设计允许针对两类模块的不同特性进行独立缩放:Attention 池可以配置计算能力更强的硬件并采用张量并行(Tensor Parallelism),而专家池则可以部署在显存容量大、带宽高的硬件上,采用更大规模的专家并行(EP)。通过这种异构部署,系统能够实现计算资源与模型需求的精准匹配。

MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图2

为了解决解耦带来的模块间通信压力,MegaScale-Infer 引入了“乒乓流水线并行”(Ping-Pong Pipeline Parallelism)。系统将一个请求批次(Batch)划分为多个微批次(Micro-batches),并在 Attention 池和专家池之间进行穿梭式推理。当第一组微批次在专家池进行专家计算时,第二组微批次可以在 Attention 池进行预处理。这种设计极大地重叠了跨池通信与内部计算的时间,确保了流水线的高效运转。同时,针对 MoE 的稀疏性,系统设计了动态调度机制,确保请求能够实时分发到空闲的专家实例上。

MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图3

3. 系统优化:动态负载均衡与通信隐藏

在解耦架构的基础上,MegaScale-Infer 进一步针对专家负载不均衡问题进行了深度优化。在 MoE 推理中,某些“热门专家”可能会被频繁调用,而其他专家则相对闲置。系统通过引入“专家副本(Expert Replication)”和“动态负载感知调度”技术,能够根据实时流量自动调整不同专家的副本数量。这意味着系统可以动态地在专家池中重分配资源,将负载压力从过热节点转移到空闲节点,从而显著降低了推理的长尾延迟(Tail Latency)。

MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图4

在通信层面,MegaScale-Infer 对 All-to-All 算子进行了定制化改造。它利用解耦架构下的网络拓扑特性,优化了跨节点的数据交换路径。通过与字节跳动内部大规模生产环境的结合,系统能够利用高速 RDMA 网络,实现计算、显存拷贝与网络传输的三重重叠。这种深度的工程优化使得系统在处理超大 Batch Size 时,依然能保持线性增长的吞吐能力,避免了传统 EP 并行中常见的通信崩塌现象。

4. 实验结论与学术意义

实验结果显示,在部署 DeepSeek 或 Switch Transformer 等大规模 MoE 模型时,MegaScale-Infer 相比于传统的 vLLM 或 DeepSpeed-Inference 方案,实现了 1.5x 到 3.2x 的吞吐量提升,同时显著降低了单位请求的成本。在端到端的生产环境测试中,该系统展现了极强的扩展性,能够平滑支撑从数十个到数千个 GPU 的推理集群规模。特别是在异构硬件环境下,解耦架构的灵活性得到了充分验证,证明了混合使用高性能计算显卡与高带宽显存显卡的可行性。

MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图5
MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图6
MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图7
MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism插图8

结论与启示:MegaScale-Infer 的成功标志着分布式推理系统正从“通用并行”向“架构感知并行”演进。它通过解耦这一手段,打破了单一 GPU 内部的资源约束瓶颈。对于研究人员而言,这篇论文提供了处理稀疏激活模型的新思路——即不仅要优化算法层面的稀疏性,更要从系统架构层面去适配这种稀疏性。未来的研究可以进一步探索如何在解耦环境下进行自动化的模型切分与资源编排,以及如何将该架构推广到多模态大模型的长序列推理中。

喜欢 (0)