欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUs

人工智能 hcl

Hao Ge (Peking University); Junda Feng, Qi Huang (ByteDance Inc.); Fangcheng Fu (Shanghai Jiao Tong University); Xiaonan Nie, Lei Zuo, Haibin Lin (ByteDance Inc.); Bin Cui (Peking University); Xin Liu (ByteDance Inc.)

报道人:方明俊(SNG 三年级硕士生)


介绍

本文重点研究随着上下文长度扩展到数十万甚至数百万token级别时,大规模语言模型(LLM)训练中出现的通信瓶颈问题。现有的方法要么依赖数据并行,要么依赖上下文并行,但两者都存在严重的效率问题。数据并行在序列长度增加时通信成本急剧上升,而上下文并行在处理长短序列混合时会造成资源浪费。作者认为,问题的根源在于当前并行化策略的僵化,即对所有序列采用相同的分区方案,导致设备利用率低和跨设备等待时间过长。这一分析为ByteCycle的设计提供了动机。

图片

核心思想与贡献

ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUs插图1

ByteCycle的核心思想是提出一种新的混合并行范式,将数据并行和上下文并行融合到一个统一的通信模型中,并根据序列长度动态调整。其贡献是多方面的:首先,它引入了一种选择性卸载机制,使得短序列可以完全在单个GPU上处理,无需不必要的跨设备同步,而仅对长序列进行分布式处理;其次,它开发了一种新颖的微批量调度方法,确保即使在异构序列长度下也能实现负载均衡,从而最小化流水线气泡和空闲时间;第三,它提供了一种轻量级的数据感知通信优化器,使该方案能够扩展到数万个GPU。这些贡献并非孤立的技巧,而是代表了分布式训练设计的一种范式转变,重新定义了在极长上下文训练中应如何协调并行化。

实验评估

作者在由16,384个GPU组成的大规模集群上进行实验,涵盖了从7B到70B参数的LLaMA等稠密模型,以及Mistral 8×7B和8×22B等稀疏混合专家(MoE)模型,上下文长度最高扩展到2,048K。在GitHub数据集上,基线系统在上下文长度加倍时吞吐量几乎减半,而ByteCycle的吞吐量仅下降1.08倍,显示出在长上下文下的卓越稳定性。在Byted数据集上,尽管序列分布带来了额外挑战,ByteCycle仍然显著优于现有系统。报告的最大加速比达到了令人印象深刻的7.89倍,远超现有最先进基线,为长上下文训练设立了新的标杆。进一步的消融研究证实,选择性卸载、均衡调度和远程数据加载各自都做出了可衡量的贡献,确保性能提升是整体设计的直接结果,而非某一优化的偶然产物。总之,评估结果表明ByteCycle是一个稳健且可扩展的框架,从根本上改变了长上下文LLM训练的可能性。

问答环节

Q1: 你们提出了混合数据并行和动态选择性卸载,并在16,000个同构CPU上研究了性能。那对于异构GPU集群(例如显存大小、互连速度不同),性能敏感性有什么经验或看法吗?

A1:  性能确实会受到影响,因为通信带宽和计算能力存在差异。关键在于如何更好地实现通信和计算的重叠。如果使用不同类型的GPU,可能需要调整每个rank处理的token数量,以更好地实现重叠。

Q2:  你们的工作主要针对LLM训练并优化了通信与计算的重叠,那么类似的思路能否应用到LLM推理阶段?

A2: 可以的,类似的思路同样适用于推理,特别是长上下文推理。在推理时也有如上下文并行、序列并行等方法,但需要特别注意长序列和短序列之间的平衡。

个人观点

这篇文章的核心思想——根据序列实际长度动态组装通信组,而非静态网格,给我留下了深刻印象。这不仅仅是一项优化——更是一种范式转变,它承认了真实数据中固有的异构性。我认为分布式训练系统的未来应该是像文章提出的那样:自适应、数据感知且流动的。然而,虽然实验达到了7.89倍的显著加速比提升,但是我认为我们哈还需要关注其动态调度机制的系统性开销。论文出色地优化了GPU时间,但并没有讨论其CPU端的成本:包括持续分析序列、为每一个微批次用公式(3)求解优化问题、以及通过Ray协调远程数据加载器。在他们16K GPU的巨大规模下,这种元数据管理和调度决策的开销可能会成为一个不可忽视的瓶颈,可能进一步限制可扩展性,或使系统对主机性能异常敏感。

文章地址: https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=Mzg2Mjg0ODcyNQ==&scene=1&album_id=4157934849875214355

喜欢 (0)