强化学习 (RL) 中的自举法是指智能体使用其自身的当前预测(例如,预测的奖励)来更新其价值估计(value estimates)的一种技术,而不是等待观察一系列动作的完整结果。 这种方法允许智能体以增量方式学习,将观察到的奖励与现有的知识相结合,从而改进其策略。 例如,在诸如 Q-Learning 之类的时间差分 (TD) 学习方法中,智能体通过将即时奖励与来自下一状态的未来奖励的折扣估计相结合来估计状态-动作对的价值。 这种“自引用”更新机制定义了自举法。
一个常见的例子是 Q-Learning 算法。 当智能体在一个状态中采取一个动作时,它会观察到奖励和下一个状态。 它不是等待看到整个奖励轨迹(如在蒙特卡洛方法中),而是使用下一个状态的最大 Q 值更新当前状态-动作对的 Q 值。 更新规则可能如下所示:Q(s, a) = Q(s, a) + α [r + γ * max(Q(s', a')) - Q(s, a)]
这里,r + γ * max(Q(s', a'))
是目标值的自举估计,它依赖于智能体当前的 Q 表。 类似地,SARSA(另一种 TD 算法)使用智能体实际采取的下一个动作的 Q 值,而不是最大值,但仍然依赖于自举法来以增量方式更新值。
自举法提供了实际的优势,例如在具有长或无限情节的环境中更快的学习,因为智能体不需要等待情节结束才能更新。 但是,如果初始价值估计不准确,它可能会引入偏差,从而可能导致次优策略。 例如,在网格世界导航任务中,如果智能体的 Q 值最初低估了到达目标的奖励,则自举法可能会在更新期间传播这些错误。 尽管存在这种权衡,但自举法在 RL 中被广泛使用,因为它平衡了效率和灵活性,从而使诸如 Deep Q-Networks (DQN) 之类的算法可以通过将神经网络与 TD 更新相结合来扩展到复杂问题。