IEEE HotICN 中文社区 |未来网络|区块链技术|人工智能|NDN中文社区|hoticnIEEE HotICN中文社区

Multi2: Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments

1. 摘要（Abstract）本文研究的是长程交互环境中大模型智能体的决策稳定性问题。现有 LLM-based agents 已经具备较强的上下文理解和推理能力，但在多轮交互任务中仍然容易出现目标漂移。也就是说，模型一开始能够理解任务目标，但随着交互轮次增加，计划和动作...

cz 4天前

摘要：大模型应用正在从生成式交互走向行动式协作。智能体不再只是回答问题，而是代表用户调用模型、访问内容、执行工具、写入状态并协调多个服务。这一变化使网络面对的核心问题从“端到端可达”扩展为“任务链路可控”：主体身份如何确认，委托授权如何传递，能力如何发现，内容如何鉴权，资源消耗...

cz 4天前

1. 摘要（Abstract）本文研究的是面向终端环境的智能体训练数据构建问题。随着大模型智能体逐渐进入代码开发、系统运维、自动调试等真实任务，仅依赖静态文本数据已经难以训练出可靠的执行能力。终端任务的难点在于，模型不仅要理解指令，还要能在真实环境中执行命令、观察反馈、...

cz 1周前 (07-24)

摘要 (Abstract) 随着计算基础设施迈入大模型（LLM）与智能体互联网（IoA）时代，传统 TCP/IP 架构“尽力而为”的传输范式与“语义盲视”的固有缺陷，已成为制约全局算力协同与跨域可信交互的底层瓶颈。近期围绕 IPv8 草案的行业探讨，深刻暴露出单纯在应用层...

wdp 1个月前 (07-01)

1. 摘要（Abstract）本文研究的是长程交互型 LLM Agent 的训练问题，核心关注点是稀疏延迟奖励下的贡献归因。随着大语言模型从静态文本生成逐渐走向环境交互，LLM Agent 需要在网页购物、虚拟实验、家居任务等复杂环境中进行连续决策。然而，这类任务通常只...

cz 2个月前 (06-11)

1. 摘要（Abstract）本文研究的是 LLM Agents 在长程交互任务中的强化学习训练问题。现有大模型智能体在完成复杂环境任务时，通常会把完整的历史交互记录作为上下文输入，包括任务指令、过去观察、动作和中间状态等。这种做法虽然能帮助模型理解当前处境，但也带来了...

cz 2个月前 (06-11)

1. 论文概述与研究背景本论文针对LoRaWAN作为全球IoT基础设施所面临的扩展性挑战展开深入探讨。LoRaWAN以其低成本、长距离和低功耗特性，成为连接数百万IoT设备的首选技术。然而，实际运营网络显示出显著的容量限制问题。作者通过对真实运营LoRaWAN网络的实证...

hhx 2个月前 (06-09)

1. 论文概述与引言 SKILLOPT提出了一种开创性的文本空间优化框架，用于实现代理技能的自进化。该论文深刻指出，当今代理技能主要依赖手工 crafting、单次 LLM 生成或松散的自修订循环，这些方法均无法像深度学习优化器那样提供系统、可控且可重复的改进路径。作者主...

hhx 2个月前 (06-01)

1. 课题背景与系统目标：应对万亿参数训练挑战随着大语言模型（LLM）向万亿级参数演进，底层基础设施面临着前所未有的压力。传统的通用数据中心架构在处理 LLM 训练时存在三个核心瓶颈：首先，高密度的算力需求导致单机柜功耗激增，传统风冷系统难以为继；其次，千卡甚至万卡级别...

hhx 2个月前 (05-25)

SIGCOMM 2025 1. 研究背景与核心痛点：MoE 推理的效率瓶颈随着大语言模型进入“万亿参数时代”，混合专家模型（Mixture-of-Experts, MoE）因其能在增加参数量的同时保持较低的激活计算量，成为了构建超大规模模型的首选架构。然而，在实际...

hhx 3个月前 (05-18)