Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations

SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025

Coimbra, Portugal Conference Sponsors: SIGCOMM

1. 研究背景与动机

1.1 大规模数据中心网络迁移的复杂性

随着 AI 训练和云服务需求的激增，数据中心（DC）网络需要频繁进行架构升级（如从四级 Clos 拓扑迁移到更复杂的架构）。在这种超大规模环境下，迁移不是简单的“开关”操作，而是一个跨越数周、涉及成千上万台设备的渐进过程。在迁移期间，网络处于一种“中间状态”，新旧协议（如 BGP 与 Open/R）必须并存，这导致了路由状态的爆炸式增长。传统的硬编码脚本或人工规划无法处理这种规模的变更，任何微小的配置错误都可能引发全网范围的流量黑洞或路由环路。

1.2 传统分布式路由与集中式控制的权衡

在 Meta 的生产环境中，分布式路由协议（如 BGP）保证了网络的弹性和局部快速收敛。然而，在迁移场景下，分布式协议缺乏全局视野，难以实现复杂的流量调度目标。传统的 SDN（软件定义网络）虽然提供了集中控制，但完全取代分布式协议会带来极高的系统复杂性和风险。如何在保留分布式协议健壮性的同时，引入集中式规划的灵活性，成为了 Meta 工程师面临的首要难题。

1.3 现有迁移工具的局限性

早期的迁移工具（如静态配置文件生成器）往往是针对特定拓扑设计的“一次性”方案。它们缺乏对网络实时状态的感知能力，且难以验证迁移中间状态的安全性。当面对 Meta 这种异构、多层级的复杂网络时，这些工具在可扩展性、通用性和容错性上表现乏力，迫切需要一个统一的、声明式的规划框架来自动化这一过程。

2. 核心挑战

2.1 路径爆炸与计算效率挑战

在拥有数万个节点的 Clos 拓扑中，节点间的潜在路径数量是天文数字。Centralium 需要在迁移的每一个微小步骤中，计算并验证所有受影响节点对之间的可达性和路径偏好。这种“路径爆炸”问题使得传统的全图遍历算法在性能上无法接受。如何在保证规划准确性的前提下，利用拓扑的对称性和抽象模型来压缩计算空间，是实现大规模实时规划的核心难点。

2.2 混合路由下的策略一致性

Centralium 的核心思想是“集中式规划，分布式执行”。这意味着它需要生成 BGP 策略（如 Local Preference、Community tags）来操纵分布式路由器的决策。挑战在于：如何确保集中式计算出的“预期路径”能够通过复杂的分布式协议交互精准实现？由于 BGP 的收敛过程是异步且受局部配置影响的，如何防止在策略下发过程中产生瞬时的路由震荡或策略冲突，需要极高精度的建模。

2.3 迁移过程中的“不间断服务”保障

数据中心迁移要求对业务近乎零感知。这意味着在路由协议切换、链路权重调整的过程中，不能出现流量中断。系统必须能够预测每一个操作对全网流量分布的影响，并预留足够的带宽冗余。在数万次微小的配置变更中，只要有一次规划失误导致负载不均，就可能引发拥塞甚至连锁故障。

3. 系统架构深度解析

3.1 抽象数据模型：网络状态的“数字孪生”

Centralium 的底层是一个高度抽象的网络模型。它不再直接操作底层的厂商命令行，而是将设备、链路和协议策略抽象为统一的 JSON/Thrift 格式。

通过这种抽象，Centralium 构建了网络的“数字孪生”。它能实时摄取来自生产环境的实际状态（Actual State），并将其与迁移目标对应的意图状态（Intended State）进行比对。这种模型屏蔽了不同硬件和协议版本的差异，使得规划引擎可以专注于高层逻辑。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图

3.2 声明式规划引擎：从“如何做”到“想要什么”

与传统的命令式脚本不同，Centralium 采用声明式编程。工程师只需定义最终的路由目标（例如：将流量从旧 Fabric 转移到新 Fabric），规划引擎会自动分解为成千上万个原子的 BGP 配置变更步骤。

引擎内部集成了复杂的约束求解器，能够自动检测潜在的逻辑环路。它通过一种“增量更新”机制，仅计算受影响的路由子集，极大地提升了在大规模拓扑下的运行效率，将原本需要数小时的人工规划缩短至秒级。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图1

3.3 验证与执行链路：闭环安全控制

Centralium 不仅仅生成计划，它还包含一个严格的验证反馈环。在配置下发前，计划会通过静态分析引擎验证是否满足连通性要求；下发过程中，系统会实时监控路由收敛情况。如果实际观察到的路由指纹（Route Fingerprint）与规划的不符，系统会自动触发回滚。这种“规划-执行-监控-校准”的闭环设计，是其能够支持 Meta 全球数据中心大规模迁移的信心来源。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图2

4. 实验与评估详细解析

4.1 实验规模与真实环境部署

Centralium 并非实验室原型，而是已在 Meta 生产环境运行多年的成熟系统。实验数据涵盖了对数个超大规模 AI 训练集群和标准计算集群的迁移记录。实验中对比了人工脚本、传统的集中式规划器与 Centralium 在处理相同规模迁移任务时的表现。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图3

4.2 性能表现：计算开销的指数级下降

在包含 40,000+ 个节点 的模拟拓扑中：

规划速度：Centralium 生成一个完整的、涉及数千条链路变更的迁移序列仅需不到 2 分钟，而传统方法由于路径搜索算法的限制，往往需要数小时甚至直接内存溢出。
增量验证：得益于其独特的拓扑抽象，验证一个变更步骤的正确性只需 150ms，这使得实时在线验证成为可能。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图4

4.3 安全性与可靠性量化

在过去两年 Meta 的实际迁移案例中：

零重大故障：Centralium 成功支撑了数百次拓扑变更，期间未发生一起由于规划逻辑错误引起的生产事故。
自动纠错：实验记录显示，在约 3% 的迁移步骤中，Centralium 成功检测到了由于底层硬件异常导致的状态不一致，并自动中断了迁移序列，防止了故障扩散。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图5

4.4 灵活性：支持异构迁移

实验还展示了 Centralium 在多种复杂场景下的通用性：

协议切换：成功执行了从 BGP 到 Open/R 的混合路由无损迁移。
拓扑升级：支持了从 H-Clos 拓扑向 Meta 下一代 AI 网络架构的平滑过渡。实验证明，该框架不仅提升了效率，更重要的是通过“混合路由规划”这一理念，完美兼顾了集中管理的便利性与分布式系统的健壮性。

Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations插图6

5. 总结与展望

5.1 核心价值总结：从“手动管理”到“意图驱动”的跨越

Centralium 的成功不仅在于它解决了一个具体的工程难题，更在于它确立了超大规模网络治理的新范式。

范式转型：它将网络迁移从“关注配置细节（BGP 属性、命令行）”转变为“关注宏观意图（流量目标、可达性约束）”。通过混合路由架构，它在分布式协议的“高可用性”和集中控制的“全局最优性”之间找到了黄金平衡点。
可靠性基石：在 Meta 这种级别的生产环境中，能够实现 100% 的迁移逻辑正确率，证明了其“声明式规划+闭环验证”机制的强大生命力。它不仅是迁移工具，更是网络韧性（Network Resilience）的重要支撑系统。

5.2 局限性思考：当前的边界

尽管 Centralium 表现卓越，但论文中也隐含了其适用范围的局限性：

协议依赖性：目前的优化高度针对 BGP 和 Open/R 协议。如果数据中心引入了全新的非最短路径优先（Non-SPF）或自定义的专有路由协议，其抽象模型可能需要大规模重构。
计算复杂度的极端情况：虽然通过对称性压缩了搜索空间，但在面对极度非对称（如大规模设备老化丢包或多点并发故障）的拓扑时，规划引擎的收敛速度仍有提升空间。

5.3 未来展望：AI 驱动与全自动自愈

基于 Centralium 的架构，未来的研究方向呈现出以下趋势：

引入生成式 AI 进行规划决策：目前的规划引擎基于硬编码的约束逻辑。未来，利用 LLM（大语言模型）理解复杂的自然语言策略，并自动将其转化为 Centralium 的声明式模型，将进一步降低运维门槛。
全自动异常自愈（Self-healing）：目前 Centralium 主要用于主动迁移。未来，该框架可以扩展为“常驻监控者”。当网络发生非预期的物理故障时，Centralium 可以像计算迁移计划一样，自动计算并下发“抢修路由计划”，实现秒级的故障自愈。
跨云与边缘扩展：随着边缘计算的发展，如何将这种混合路由规划框架从单一数据中心扩展到跨地域、跨云的异构链路，将是网络测量与控制领域的下一个前沿课题。