好奇心驱动的探索方法是强化学习 (RL) 中的一种技术,它通过奖励导致新颖或不确定状态的行为来鼓励智能体探索其环境。与传统的强化学习(智能体优化外部奖励,例如游戏中的得分)不同,这些方法使用内在奖励——基于智能体自身学习进度的自生成信号。其目标是推动智能体探索尚未掌握的环境区域,这有助于克服稀疏奖励或欺骗性局部最优等挑战。例如,在迷宫求解任务中,智能体在找到出口之前可能得不到任何外部奖励,但好奇心驱动的方法会激励它探索新的路径,从而加速发现。
一种常见的方法是基于预测的好奇心。在这种方法中,智能体学习一个模型来预测其行为的结果,并且内在奖励与预测的错误程度相关。例如,内在好奇心模块 (ICM) 使用两个神经网络:一个根据当前状态和行为预测下一个状态,另一个学习状态的压缩表示以关注相关特征。当智能体的预测失败时,它会获得更高的奖励,这表明它处于不熟悉的状态。另一种方法,随机网络蒸馏 (RND),使用两个网络:一个固定的随机网络和一个试图模仿其输出的可训练网络。它们之间的预测误差用作好奇心信号,鼓励探索误差高的状态。
这些方法在奖励稀疏或延迟的环境中特别有用。例如,一个学习行走的机器人可能只在向前移动时获得奖励,但好奇心驱动的探索可以帮助它发现中间行为,例如转移重心或保持平衡。然而,挑战依然存在。基于预测的方法可能受到“噪声”或随机环境的干扰,在这些环境中状态本身是不可预测的,导致探索浪费。为了解决这个问题,一些方法通过关注智能体可以影响的状态特征来过滤掉环境中不可控的方面(例如游戏中的背景动画)。虽然不是一个通用的解决方案,但好奇心驱动的方法显著提高了在复杂、开放式任务中的探索效率,使其成为开发人员在实际场景中训练强化学习智能体的重要工具。