欢迎莅临 IEEE HotICN 中文社区，IEEE HotICN 国际学术会议网站： https://hoticn.com, https://hoticn.cn。

分类：人工智能

Self-evolving LLM Agents with In-distribution Optimization

1. 摘要（Abstract）本文研究的是长程交互型 LLM Agent 的训练问题，核心关注点是稀疏延迟奖励下的贡献归因。随着大语言模型从静态文本生成逐渐走向环境交互，LLM Agent 需要在网页购物、虚拟实验、家居任务等复杂环境中进行连续决策。然而，这类任务通常只...

cz 4周前 (06-11)

1. 摘要（Abstract）本文研究的是 LLM Agents 在长程交互任务中的强化学习训练问题。现有大模型智能体在完成复杂环境任务时，通常会把完整的历史交互记录作为上下文输入，包括任务指令、过去观察、动作和中间状态等。这种做法虽然能帮助模型理解当前处境，但也带来了...

cz 4周前 (06-11)

1. 论文概述与研究背景本论文针对LoRaWAN作为全球IoT基础设施所面临的扩展性挑战展开深入探讨。LoRaWAN以其低成本、长距离和低功耗特性，成为连接数百万IoT设备的首选技术。然而，实际运营网络显示出显著的容量限制问题。作者通过对真实运营LoRaWAN网络的实证...

hhx 1个月前 (06-09)

1. 论文概述与引言 SKILLOPT提出了一种开创性的文本空间优化框架，用于实现代理技能的自进化。该论文深刻指出，当今代理技能主要依赖手工 crafting、单次 LLM 生成或松散的自修订循环，这些方法均无法像深度学习优化器那样提供系统、可控且可重复的改进路径。作者主...

hhx 1个月前 (06-01)

1. 课题背景与系统目标：应对万亿参数训练挑战随着大语言模型（LLM）向万亿级参数演进，底层基础设施面临着前所未有的压力。传统的通用数据中心架构在处理 LLM 训练时存在三个核心瓶颈：首先，高密度的算力需求导致单机柜功耗激增，传统风冷系统难以为继；其次，千卡甚至万卡级别...

hhx 2个月前 (05-25)

1.摘要（Abstract）本文研究的是 LLM hallucination detection benchmark（大模型幻觉检测基准）的评测问题。随着大模型被用于电商、医疗、法律等真实场景，幻觉问题已经不只是模型效果问题，而是直接关系到生成式 AI 的安全使用。虽...

cz 2个月前 (05-18)

随着大语言模型（LLM）能力的快速提升，基于 LLM 的自治智能体（Autonomous Agents）正在成为人工智能领域的重要研究方向。从 AutoGPT、MetaGPT 到各类 AI Agent 系统，研究者不断尝试让智能体具备自主规划、任务分解与协同执行能力。然而，现有...

前康 2个月前 (05-13)

1. 摘要（Abstract）本文研究的是大模型推理中的通信瓶颈问题，具体聚焦在 Tensor Parallelism（TP）推理场景下的 All-Reduce 加速。随着 LLM 参数规模不断扩大，单个 GPU 很难独立完成低延迟推理，多加速器并行已经成为常态。但在 ...

cz 2个月前 (05-08)

1. 摘要（Abstract）本文聚焦于 LLM-based Search Agent 的训练问题。现有方法在强化学习训练中主要面临一个核心难点credit assignment（贡献归因）。一方面，基于最终答案的 outcome supervision 虽然训练稳定，...

cz 3个月前 (04-22)

① 研究背景在当前互联网域间路由系统中，BGP作为核心协议，其安全性长期受到路由劫持（hijack）、路由泄露（leak）等异常行为的威胁。尽管近年来RPKI、ROV等机制逐步部署，为路由验证提供了“可信锚点”，但实际网络环境却远比理想模型复杂。问题的关键在于：BGP是...

前康 3个月前 (04-20)