互联网Astral: A Datacenter Infrastructure for Large Language Model Training at Scale 1. 课题背景与系统目标:应对万亿参数训练挑战 随着大语言模型(LLM)向万亿级参数演进,底层基础设施面临着前所未有的压力。传统的通用数据中心架构在处理 LLM 训练时存在三个核心瓶颈:首先,高密度的算力需求导致单机柜功耗激增,传统风冷系统难以为继;其次,千卡甚至万卡级别... hhx 3天前
互联网MegaScale-Infer: Efficient Mixture-of-Experts Model Serving with Disaggregated Expert Parallelism SIGCOMM 2025 1. 研究背景与核心痛点:MoE 推理的效率瓶颈 随着大语言模型进入“万亿参数时代”,混合专家模型(Mixture-of-Experts, MoE)因其能在增加参数量的同时保持较低的激活计算量,成为了构建超大规模模型的首选架构。然而,在实际... hhx 1周前 (05-18)
互联网SYCCL: Exploiting Symmetry for Efficient Collective Communication Scheduling SIGCOMM 2025 1. 课题背景:集体通信调度的瓶颈与挑战 当前,分布式机器学习(如大语言模型训练)的效率受到集体通信(Collective Communication,如 AllReduce、AllGather)的严重制约。随着模型规模从十亿级向万亿级演进... hhx 2周前 (05-11)
新型网络体系结构CEIO: A Cache-Efficient Network 1/O Architecture for NIC-CPU Data Paths 1. 摘要与核心贡献 摘要清晰指出,随着网络链路速度扩展至 100Gbps 乃至更高,传统 I/O 加速技术(如 Intel 的 DDIO 和 RDMA)由于 LLC 利用率低而性能受限。CEIO 的核心创新在于:在 NIC 入口处部署 I/O 管理器,通过信用-based 主... hhx 3周前 (05-09)
新型网络体系结构Centralium: A Hybrid Route-Planning Framework for Large-ScaleData Center Network Migrations . 研究背景:BGP 在超大规模网络迁移中的局限性 在 Meta(原 Facebook)的超大规模数据中心(DCN)中,网络迁移(如拓扑扩展、设备更迭、链路重组)已成为日常。传统的 BGP 协议虽然在可扩展性和容错性上表现卓越,但在处理动态迁移任务时却显得捉襟见肘。 BG... hhx 4周前 (04-28)
NFTPegasus: A Universal Framework for Scalable Deep Learning Inference SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portuga 1. 摘要(Abstract) Pegasus针对当前Inte... hhx 2个月前 (03-27)
互联网Pegasus: A Universal Framework for Scalable Deep Learning Inference on the Dataplane SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portugal 1. 课题背景与现有方案的局限性 随着网络流量的爆炸式增长,在数据平面直接进行... hhx 2个月前 (03-19)
互联网Towards LLM-Based Failure Localization in Production-Scale Networks SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portugal 1. 摘要与研究背景:云网络运维的瓶颈与大模型的机遇 在现代超大规模公有云基础... hhx 3个月前 (03-10)
互联网Centralium: A Hybrid Route-Planning Framework for Large-Scale Data Center Network Migrations SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portugal Conference Sponsors: SIGCOMM 1. 研究背景与动机... hhx 4个月前 (01-27)
互联网Intent-Driven Network Management with Multi-Agent LLMs-The Confucius Framework SIGCOMM ’25: ACM SIGCOMM 2025 Conference September 8 – 11, 2025 Coimbra, Portugal 研究背景与超大规模网络管理的痛点 在现代互联网基础设施中,超大规模网络(Hyp... hhx 5个月前 (01-12)