论文来源:arXiv:2410.22262v2
作者:Mariam Musavi, Emmanuel Irabor, Abhijit Das, Eduard Alarcón, Sergi Abadal
单位:NaNoNetworking Center in Catalunya (N3Cat), Universitat Politècnica de Catalunya (UPC)
一、研究背景与挑战
随着人工智能(AI)模型规模的不断增长,单芯片加速器已难以满足算力需求。Chiplet(芯粒)技术应运而生,通过将多个专用加速器芯粒封装在一起,构建横向扩展(Scale-out)的多芯粒架构,成为下一代 AI 加速器的主流方案。
然而,多芯粒架构面临一个关键挑战——通信瓶颈:
– 能耗集中于数据搬运:研究表明,AI 加速器芯粒可能将超过 90%的系统能量用于数据搬运任务。
– 多播通信需求激增:现代 AI 数据流(如权重广播、激活值分发)中广泛存在 多播(Multicast) 通信模式。
– 芯粒间互连速度受限:相比片上网络(NoC),封装级网络(NoP)的传输延迟更高,严重制约系统扩展性。
尽管已有 SIMBA、GEMINI 等工作关注多芯粒架构的映射与调度优化,但现有研究缺乏对通信流量特征(尤其是多播流量)的深入量化分析。
本论文旨在填补这一空白,系统性地剖析 AI 负载在多芯粒加速器上的数据移动特征,揭示通信瓶颈的根源。
二、核心方法:基于 GEMINI 的通信特征分析框架
为了量化评估 AI 负载的通信行为,作者基于 GEMINI框架构建了一套增强型分析方法。
2.1 分析流程
整体流程分为四个步骤:
1. 输入配置:选择目标 AI 负载(如 ResNet、Transformer)与硬件架构参数(芯粒数量、互连带宽等)。
2. 最优映射:利用 GEMINI 的设计空间探索引擎,确定能耗延迟积(EDP)最优的映射方案。
3. 通信追踪:通过 C++ 功能脚本扩展 GEMINI,记录所有通信数据包的详细信息。
4. 特征提取:使用 Python 脚本解析追踪数据,提取关键通信指标并可视化。

2.2 关键度量指标
论文聚焦以下四类通信度量:

三、实验配置
作者选取了 12 种主流 AI 推理负载 进行测试,涵盖图像分类与自然语言处理领域:
– 残差网络:ResNet50、ResNet101、ResNet152、ResNext50
– 密集网络:DenseNet、Darknet19
– Inception 系列:GoogleNet、iRES
– Transformer 系列:TF、TF Cell
– 序列模型:LSTM、GNMT
测试在三种芯粒阵列配置下进行:1×2(2 芯粒)、3×3(9 芯粒)、6×3(18 芯粒),均配备 4 个 DRAM 芯粒。
四、实验结果与核心发现
4.1 通信时间占比分析
实验揭示了一个关键事实:随着芯粒数量增加,芯粒间通信时间占比急剧上升。

这意味着:
– 简单增加芯粒数量无法带来线性性能提升
– “通信墙”(Communication Wall) 效应在大规模配置下尤为显著
– Transformer 类模型受通信瓶颈影响最为严重
4.2 多播流量分析
多播通信是导致通信瓶颈的关键因素:
– DenseNet 在 6×3 配置下产生高达 4120 万条 多播消息
– Transformer 产生约 1360 万条 多播消息
– 许多多播消息需要同时发送到 **6 个以上** 目标芯粒,造成严重的网络拥塞
4.3 空间局部性分析
通过分析 NoP 跳数分布,作者发现:
– 传统局部性假设失效:与 CPU/GPU 工作负载不同,多芯粒 AI 加速器中长距离通信非常普遍
– 多播倾向于长距离:尽管多播消息总数少于单播,但其平均跳数更高
– 随着系统规模扩大,高跳数消息数量呈超线性增长


五、核心贡献与意义
1. 首次系统性刻画多芯粒 AI 加速器的通信特征:提供了单播/多播流量、跳数分布和通信时间占比的详细量化分析。
2. 揭示多播通信的主导地位:量化证明了多播流量在特定 AI 负载中的关键作用及其对扩展性的制约。
3. 挑战传统局部性假设:证明了 AI 负载通信中广泛存在的长距离依赖,这对互连架构设计具有重要指导意义。
六、未来展望
基于上述发现,论文提出多芯粒 AI 加速器的互连架构设计应重点考虑:
– 新型互连技术:
– 无线互连(Wireless Interconnects):天然支持广播,适合多播密集型负载
– 光互连(Optical Interconnects):低延迟长距离传输,缓解跳数瓶颈
– 灵活的互连架构:设计能够动态适应不同 AI 负载通信模式的 NoP 架构
– 近存计算与 3D 堆叠:通过近存计算(NMC)或 3D 堆叠内存减少数据搬运距离
总结
本文通过系统性的通信特征分析,揭示了多芯粒 AI 加速器中通信瓶颈的根源在于多播流量的主导地位和长距离通信的普遍性。这些洞察为下一代 AI 加速器的互连架构设计提供了重要的理论依据和实践指导。