CClinguist: An Expert-Free Framework for Future-Compatible Congestion Control Algorithm Identification

SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025

Coimbra, Portugal Conference Sponsors: SIGCOMM

1. 研究背景与动机

（1）拥塞控制算法 (CCA) 的重要性与多样化

拥塞控制是网络协议栈的核心，直接决定了带宽利用率、延迟和丢包率。在过去的几十年里，互联网环境发生了翻天覆地的变化：从早期的有线宽带到如今的 5G 移动网络、卫星链路（如 Starlink）以及低延迟数据中心网络。单一的算法（如传统的 TCP Reno）已无法满足所有场景需求。

为了追求极限性能，学术界和工业界推出了大量新型算法。例如，Google 推出的 BBR 算法打破了基于丢包的传统模式，转而探测瓶颈带宽；PCC 算法引入了机器学习在线学习最优策略。这种“百家争鸣”的局面虽然提升了性能，但也导致网络流量特征变得极度复杂。研究人员必须了解网络中实际运行的是哪种算法，才能针对性地优化协议、提升网络公平性（Fairness）并解决跨算法竞争导致的“带宽挤占”问题。

（2）进行网络普查（Census）的迫切需求

在大规模网络测量中，识别终端服务器使用的 CCA 具有极高的科研和工程价值。首先，它能帮助我们绘制互联网协议的“进化地图”，监测新算法（如 QUIC 中的 BBR）的部署速度和渗透率。其次，识别 CCA 是定位网络故障的关键。例如，当某些地区用户反馈视频卡顿时，如果能识别出是因为服务器误用了不适合高延迟环境的算法（如 CUBIC），运营商就能提供精准的优化建议。此外，网络普查还能揭示潜在的协议不公问题。某些算法可能为了竞争带宽而表现得过于“激进”，通过普查，监管机构和标准化组织可以发现并约束这些违反公平性原则的实现。然而，全球数以亿计的服务器和快速迭代的代码版本，使得手动普查变得不再可能，亟需自动化工具。

（3）传统识别工具（如 CCAnalyzer, Nebby）的局限性

现有的 CCA 识别工具大多属于“专家系统”范畴，其核心逻辑依赖于人工提取特征。专家们需要观察不同算法在特定网络下的表现，手动编写判定规则或构建“特征库（Profiles）”。这种模式在算法稀少的年代可行，但在当前环境下弊端凸显：

高昂的维护成本：每当有新算法出现，专家必须重新实验并更新规则，这通常需要数周时间。
网络环境敏感性：老旧工具的特征库通常基于特定实验室环境。当部署到真实的跨国链路或复杂的移动网络时，由于背景流量和抖动，预设的规则往往失效。
未来不兼容：专家无法预见未来算法的特征（如 AI 驱动的算法），导致工具在发布即开始过时。这种对人类经验的强依赖，成为了制约网络测量技术发展的最大瓶颈。

2. 核心挑战

（1）自动搜索具有高度判别性的配置 (D-profile)

识别算法的前提是让算法在不同的“压力测试”下表现出差异。然而，找到这种能让算法“现原形”的网络配置（即判别配置，D-profile）极具挑战性。

随着算法数量的增加，单一的配置（如设定固定的 50ms 延迟）往往无法区分所有算法。例如，算法 A 和 B 在高带宽下表现一致，在低带宽下才显现差异；而算法 B 和 C 却恰恰相反。如果通过人工穷举尝试各种带宽、延迟、丢包率的组合，其搜索空间是无穷大的。CClinguist 必须解决如何利用智能算法（如强化学习）在海量的参数组合中，自动、快速地寻找出一组“最优探测组合”，既能拉开不同算法的特征距离，又要尽可能缩短探测时间（即减少配置切换次数），这对系统的搜索效率提出了极高要求。

（2）“开集识别” (Open-set Recognition) 与未知算法处理

在真实的互联网环境中，我们面对的是一个“动态、未知”的算法集。传统的分类模型（如简单的多分类神经网络）属于“闭集识别”，它们默认输入的流量一定属于已知的某几类算法。当一个从未见过的、新型或变体算法出现时，闭集分类器会强行将其归类为某个最像的已知算法，从而产生严重的误导。

核心挑战在于如何赋予系统“知之为知之，不知为不知”的能力。系统不仅要学习已知算法的特征，还要学习已知特征的边界。当流量特征落在所有已知边界之外时，系统必须能准确地报告“这是一个未知算法”。更进一步，系统还需具备自演化能力：如何将这些新发现的“未知流量”进行聚类，并自动赋予它们弱标签，从而在不经过人工标注的情况下完成模型的自我迭代与升级，实现“未来兼容”。

（3）特征提取的抗干扰性与通用性

网络在传输过程中会引入大量的“噪声”，如随机丢包、抖动（Jitter）以及由于多路径路由导致的乱序。此外，不同的应用层行为（如不同大小的文件传输）也会扭曲 CCA 的原生表现。如何在嘈杂的原始数据（如 ACK 间隔、发送速率变化等）中提取出能够代表算法本质逻辑的“指纹（CCprints）”，是另一个技术堡垒。如果特征提取过于简单，则容易被网络波动干扰；如果过于复杂，则会导致计算开销过大，无法进行实时普查。CClinguist 需要设计一种高度鲁棒的特征编码器（如利用 Transformer 捕获长距离序列特征），能够跨越不同的网络环境，锁定算法内核的动力学特征，而不被表面的网络毛刺所干扰。

3. CClinguist 系统架构

（1）D-profile Tree (判别配置树)：多维度的“分选漏斗”

在 CClinguist 中，D-profile Tree 改变了传统单一维度探测的模式。它本质上是一个决策序列，树的每个节点代表一种特定的网络配置（如：带宽=5Mbps，延迟=40ms）。当被测流量进入树根后，系统会观察其在该配置下的表现（CCprints）。

深度解析：这种树状架构的精妙之处在于它实现了“分而治之”。不同的 CCA 可能在某些配置下表现极其相似（例如 BBR 和 BBR-v2 在固定带宽下可能难以区分），但在另一种配置（如引入特定的随机丢包率）下则会展现出截然不同的行为特征。通过多级配置切换，系统像玩“猜猜看”游戏一样，通过每一层的探测结果不断缩小候选算法的范围。这解决了“特征冲突”问题，即单一配置无法提供足够的判别力来区分数十种算法的瓶颈。同时，树状结构允许系统根据当前的初步判定结果，动态选择下一个最有判别力的配置，从而极大地减少了探测的总时间开销。

CClinguist: An Expert-Free Framework for Future-Compatible Congestion Control Algorithm Identification插图

2. RL-based Generator (强化学习生成器)：自动化的“实验专家”

为了在海量的网络参数空间中找到那棵能最高效区分算法的“树”，CClinguist 引入了基于强化学习（RL）的自动生成器。它模拟了一个专家的角色，通过成千上万次的尝试，学习哪些配置组合能产生最具特征的流量模式。

深度解析：该生成器将构建探测树的过程建模为一个马尔可夫决策过程（MDP）。RL 智能体的“奖励（Reward）”函数被精心设计为：识别准确率越高、配置切换次数越少（即探测速度越快），奖励就越高。在训练过程中，智能体不断调整其策略，学习如何针对不同算法的数学逻辑（如基于延迟的算法对比基于丢包的算法）设置针对性的“陷阱”配置。这种自动化生成方式彻底取代了人工调优，使得 CClinguist 能够快速适配不同的网络拓扑（如从实验室环境切换到卫星链路）。即使未来出现了全新的 CCA，RL 生成器只需在包含新算法的环境中重新运行一遍搜索，就能自动产出针对该新算法的最优探测方案。

CClinguist: An Expert-Free Framework for Future-Compatible Congestion Control Algorithm Identification插图1

3. Self-learning Classifier (自学习分类器)：具备“自我进化”能力的脑干

这是 CClinguist 的决策中枢，它不仅负责对采集到的流量指纹（CCprints）进行分类，还负责识别哪些是系统从未见过的“未知算法”。它采用了基于 Transformer 的特征提取编码器和 Open-set 识别机制。

深度解析：传统的分类器在遇到未知算法时会盲目报错或误分，而 CClinguist 的自学习分类器引入了“未知检测机制”。它在特征空间中为已知算法建立“信任区域”，当新流量的指纹落在所有区域之外时，系统会将其标记为“Unknown”。最关键的创新在于其“自升级”链路：这些被标记为未知的流量会被暂时缓存，并利用聚类算法（如改进的 K-means）进行离线分析。如果某一类未知流量表现出稳定的模式，系统会自动为其分配一个弱标签（Weak Label），并将其重新喂入训练集。这意味着系统在使用过程中，随着接触到的未知算法越来越多，其识别库会自动扩容，实现了真正的“时间兼容性（Future-Compatible）”，让分类器能够像人类一样通过经验积累而不断进化。

CClinguist: An Expert-Free Framework for Future-Compatible Congestion Control Algorithm Identification插图2

4. 实验与评估结果

研究团队在四个地区部署了测试床进行评估，结果显示：

高识别精度：对 Linux 内核中的 12 种已知算法识别准确率达 97.33% 。
出色的兼容性：
- 新场景：在跨洋高延迟场景下，CClinguist 能自动调整配置，准确率（91.67%）远高于传统工具。
- 新算法：成功识别了 3 种基于学习的算法，并在自升级后将识别范围扩展至 15 种，准确率为 88.33%，超过当前最先进（SoTA）方法 11.8% 。
- ECN 支持：它是首个能够识别基于显式拥塞通知 (ECN) 算法（如 DCTCP, BBR-v2）的工具，准确率达 89.33% 。
真实世界普查：在对 7,000 多个 Web 服务器的普查中，成功探测到了未知的 CCA 变体。