本文作者邹德誉,香港中文大学计机科学与工程系博士生,本科毕业于科学技术大学。研究向为大语言模型智能体、强化学习与主动理,关注模型在信息不完备的多轮交互中如何主动获取、新并利用信念。相关工作发表于 ICLR 2026 Oral 与 ICML 2026。 随着大语言模型逐步从「单轮问答」走向「真实环境中...