人工智能Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights 1.摘要(Abstract) 本文研究的是 LLM hallucination detection benchmark(大模型幻觉检测基准) 的评测问题。随着大模型被用于电商、医疗、法律等真实场景,幻觉问题已经不只是模型效果问题,而是直接关系到生成式 AI 的安全使用。虽... 16小时前
人工智能A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network 1. 摘要(Abstract) 本文研究的是大模型推理中的通信瓶颈问题,具体聚焦在 Tensor Parallelism(TP)推理场景下的 All-Reduce 加速。随着 LLM 参数规模不断扩大,单个 GPU 很难独立完成低延迟推理,多加速器并行已经成为常态。但在 ... 2周前 (05-08)
人工智能Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization 1. 摘要(Abstract) 本文聚焦于 LLM-based Search Agent 的训练问题。现有方法在强化学习训练中主要面临一个核心难点credit assignment(贡献归因)。一方面,基于最终答案的 outcome supervision 虽然训练稳定,... 4周前 (04-22)