[LG]《Using Reward Uncertainty to Induce

[LG]《Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning》A GX-Chen, A Anand, G Comanici, Z Abbas… [Google DeepMind] (2026)

在大型语言模型推理中，重复出现的多步推理套路总被困在临时草稿里。过去的方法依赖手写任务分解或复用整条轨迹，本质原因是没有把“推理动作”当成可沉淀、可复用的单位。

本文的核心洞见是：把ReAct轨迹重新看作推理原语矿脉。由此，筛选成功轨迹、聚类Thought、合成伪工具这一操作，使模型能稳定调用曾经只偶然出现的推理动作，从而超越原始智能体性能。

这项工作真正留下的遗产是：推理经验可以从行为痕迹中自动结晶。它为后来者打开的新门是无需专家设计的推理工具库，但尚未跨过的门槛是原语仍依赖LLM解释，可靠性边界尚未完全明确。

arxiv.org/abs/2606.03962 机器学习人工智能论文 AI创造营

铭鸿体育资讯网