Astral: A Datacenter Infrastructure for Large Language Model Training at Scale

1. 课题背景与系统目标：应对万亿参数训练挑战

随着大语言模型（LLM）向万亿级参数演进，底层基础设施面临着前所未有的压力。传统的通用数据中心架构在处理 LLM 训练时存在三个核心瓶颈：首先，高密度的算力需求导致单机柜功耗激增，传统风冷系统难以为继；其次，千卡甚至万卡级别的并行训练对网络拓扑的带宽和延迟极其敏感，任何网络阻塞都会导致算力利用率（MFU）大幅下降；最后，在超大规模集群中，硬件故障、网络抖动和软件异常几乎成为常态，如何从海量的监控数据中快速精准地定位故障根因，是维持训练连续性的关键。

Astral 系统的设计目标是打造一个“全栈式”的 LLM 专用基础设施。它不仅关注软件层面的优化，更从物理层（供电与散热）、网络层（拓扑架构）以及监控层（自动化运维）进行了深度的垂直整合。通过这些创新，Astral 旨在支持万亿规模模型的稳定、高效训练，将基础设施从“通用计算平台”转型为“AI 专用工厂”。

2. 物理层创新：高压直流供电与液冷集成方案

在物理部署层面，Astral 针对 LLM 集群的高功率密度特性，引入了分布式高压直流（HVDC）供电系统。相比于传统的交流电供电，HVDC 显著减少了电能转换次数，提高了能源利用效率，并为 GPU 服务器提供了更稳定的电力保障。为了支撑单机柜超过 100kW 的功耗，Astral 采用了先进的“风液集成”冷却系统。这种系统利用冷板式液冷直接带走 GPU 和 CPU 的大部分热量，同时辅以精密风冷处理电感、电容等组件的余热，确保了在超高算力密度下的热稳定性。

这种物理层的变革不仅是硬件的堆叠，更是对机房空间的重构。Astral 的设计使得在有限的机房面积内可以部署更多的算力单元，显著提升了数据中心的算力密度（Compute Density）。同时，液冷系统的引入将数据中心整体的 PUE（能源使用效率）降至极低水平，降低了万亿模型训练的长周期运营成本，为绿色 AI 提供了底层支撑。

3. 网络层架构：Tier-2 同轨（Same-rail）互联网络

网络拓扑是 Astral 的核心技术亮点之一。为了消除大规模训练中的 All-to-All 通信瓶颈，Astral 设计了一种创新的 Tier-2 同轨互联架构。在传统的 3D 并行（TP/PP/DP）策略中，由于跨交换机跳数多，同轨通信（Same-rail communication）往往会跨越多个网络层级，导致延迟增加。Astral 通过在 Tier-2 层级建立专门的同轨互联，使得大规模集群中的张量并行（TP）和专家并行（EP）流量能够在最短路径内完成交换。

这种架构设计的核心价值在于其“可扩展性”。通过优化 Tier-2 的物理连线和逻辑映射，Astral 能够支持从数百卡平滑扩展至数万卡。实验表明，这种同轨设计不仅降低了网络拥塞的风险，还极大地简化了路由策略。结合自研的通信库优化，Astral 能够确保在万卡规模下，网络通信开销不再是制约算力利用率的“木桶短板”。

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图

4. 监控与运维：跨主机层次化日志关联系统

在超大规模集群中，“抓取故障”就像大海捞针。Astral 提出了一套全栈监控系统，其核心特征是“跨主机”和“层次化”的日志关联。传统的监控系统往往孤立地查看单机指标（如 CPU/GPU 利用率），而 Astral 则将网络交换机、服务器硬件、操作系统内核、通信库（如 NCCL）以及深度学习框架（如 PyTorch）的日志进行多维聚合。通过全局唯一的 Request ID 或时间戳，运维系统可以回溯一个通信请求在整个集群中的流转路径。

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图1

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图2

为了实现秒级故障定位，Astral 引入了自动化的故障特征提取引擎。当训练任务因 NCCL Timeout 或 GPU 掉卡而中断时，系统能自动比对异常发生前后的硬件指标变化，并结合拓扑图定位出故障源（如某个光模块损坏或某条链路误码）。这种从“被动响应”到“主动诊断”的转变，将大规模集群的平均修复时间（MTTR）缩短了 80% 以上，极大地提升了科研人员的开发效率。

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图3

5. 实验分析：Seer 性能预测与实测数据

Astral 引入了一个关键组件 Seer，用于算子级的执行时间预测。实验数据显示，Seer 在预测算子执行时间轴方面表现出了极高的准确性。通过对比实际运行曲线与 Seer 生成的预测曲线，其平均预测误差控制在 5% 以内。在 3D 并行策略的配置选择上，Seer 能够帮助研究人员在数秒内筛选出最优的 TP/PP/DP 组合，避免了在昂贵真实集群上进行昂贵的“试错法”实验。

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图4

在实际吞吐量对比中，Astral 的同轨网络架构展现了显著优势。数据显示，在万卡级别的 All-to-All 通信测试中，采用同轨设计的网络带宽利用率比传统架构提升了 25% – 35%。在端到端的 LLM 训练任务（如千亿参数模型）中，Astral 的算力利用率（MFU）稳定在 55% 以上，远高于行业平均水平。此外，全栈监控系统在 6 个月的运行周期内，成功预警并定位了超过 95% 的硬件软故障，保障了训练任务的超长周期连续运行。

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图5

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图6

Astral: A Datacenter Infrastructure for Large Language Model Training at Scale插图7

6. 结论与工业洞察：从基础设施到算力生态

Astral 的研究报告为未来的 AI 基础设施建设提供了宝贵的蓝图。它证明了在 LLM 时代，基础设施不再是离散的硬件组合，而是一个需要从电力、冷却、网络到软件监控进行全链路联动的整体。Astral 的成功在于其深刻理解了“通信驱动算力”的本质，通过同轨网络解决了扩展性难题，通过 HVDC 和液冷解决了能耗难题，通过 Seer 和层次化日志解决了运维难题。

对于行业而言，Astral 的实践启示我们：未来的超算中心必须是“应用感知”的。只有当底层设施能够深刻理解大模型并行计算的流量模式和资源需求时，才能真正实现算力的最优释放。随着模型规模向 10 万亿参数迈进，Astral 所倡导的这种全栈协同设计理念，将成为构建下一代 AI 数据中心的基础准则。