人工智能Efficient Transformers: A Survey 会议:ICML 2025 论文概述 随着Transformer架构在自然语言处理、计算机视觉等领域的广泛应用,其计算和内存开销成为了限制其进一步应用的瓶颈,尤其是在长文本或大规模数据集的任务中。本文提出了几种新的Transformer变体,通过优化计算路径和改进注意... 2天前
人工智能无人机群协同目标搜索的多智能体强化学习方法 Y. Hou, J. Zhao, R. Zhang, et al. UAV Swarm Cooperative Target Search: A Multi-Agent Reinforcement Learning Approach[J]. IEEE Transactions... 1周前 (11-15)
人工智能NeurIPS唯一满分论文曝光,来自清华上交 四个审稿人全给6分,NeurIPS唯一满分论文炸了! 之所以说它炸,主要是论文给出的结论实在太出人意料了—— 真正决定推理上限的是基座模型本身而非强化学习,且蒸馏比强化学习更有望实现大模型自我进化。 好家伙,这无异于给正炙手可热的RLVR(可验证奖励的强化学习... 1周前 (11-15)
人工智能李飞飞和LeCun的世界模型之争 Jay 发自 凹非寺量子位 | 公众号 QbitAI AGI之路,终于交汇到了世界模型的战场。 李飞飞,发布了旗下首款商用世界模型Marble; 几乎同一时间,Lecun离职Meta,准备创立自己的世界模型公司; 在此之前,谷歌旗下的世界模型Geni... 1周前 (11-15)
互联网ICNP 2025论文报道 之 AI4Net 第 33 届 IEEE ICNP 于 2025 年 9 月在韩国首尔召开,本次大会共计 238 篇投稿,录用 60 篇(录用率为 25%)。 《Mamba4Net: 蒸馏式混合Mamba大语言模型在网络领域的应用》论文介绍 《Mamba4Net: Distilled... 1个月前 (10-11)
新型网络体系结构IEEE INFOCOM2025开源文|好文荐读!HyperJet: 分布式边缘计算中超图任务的联合通信与计算调度 摘要 分布式边缘计算(DEC)因其在通信延迟、并行计算效率和能耗方面的卓越性能,已成为一种新的计算模式。随着生成式人工智能任务的激增,DEC 对并行计算效率提出了更高的要求。安排多个任务同时处理,而不是逐个处理,可以提高并行效率。多个任务具有多重依赖性,即序列依赖性、属性... 2个月前 (09-29)
人工智能ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUs Hao Ge (Peking University); Junda Feng, Qi Huang (ByteDance Inc.); Fangcheng Fu (Shanghai Jiao Tong University); Xiaonan Nie, Lei Zuo, Haib... 2个月前 (09-15)
互联网CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters 作者:Sudarsanan Rajasekaran (1), Manya Ghobadi (1), Aditya Akella (2) ((1) Massachusetts Institute of Technology, (2... 3个月前 (08-14)