任丘市奥力斯涂料厂
强化 相关话题
  • 阿克苏pvc排水管专用胶水 ICML 2026 | Agentic强化学习训练的信息自锁问题

    本文作者邹德誉,香港中文大学计机科学与工程系博士生,本科毕业于科学技术大学。研究向为大语言模型智能体、强化学习与主动理,关注模型在信息不完备的多轮交互中如何主动获取、新并利用信念。相关工作发表于 ICLR 2026 Oral 与 ICML 2026。 随着大语言模型逐步从「单轮问答」走向「真实环境中...

  • 共 1 页/1 条记录