时序差分(TD)学习是一种强化学习方法,它结合了蒙特卡洛采样和动态规划的思想来估计状态或动作的价值。与蒙特卡洛方法不同,蒙特卡洛方法需要等到一个回合结束后才更新价值估计,而 TD 学习在每一步之后逐步更新估计。这使得它能够在线学习,对于回合较长或无限的任务来说效率更高。TD 学习使用一种称为“自举”(bootstrapping)的概念,即利用后续的估计来改进当前的估计,从而平衡了即时奖励和未来预测。
一个核心例子是 TD(0) 算法,它根据观察到的奖励和下一个状态的估计价值来更新一个状态的价值。假设一个智能体正在一个网格世界环境中导航。当从状态 s 移动到 s’ 时,TD(0) 使用公式 V(s) = V(s) + α [R + γV(s') - V(s)]
调整 s 的价值。其中,α(学习率)控制更新的应用程度,γ(折扣因子)降低未来奖励的重要性,R 是即时奖励,而 [R + γV(s') - V(s)]
则是 TD 误差——当前估计值与新目标值之间的差。这个误差驱动学习过程,在无需等待回合结束的情况下纠正 s 的价值。
TD 学习是 Q-learning 和 SARSA 等算法的基础。例如,Q-learning 利用 TD 通过将最佳可能的未来价值与当前估计值进行比较来更新动作-价值对(Q(s,a))。一个实际的应用案例是训练游戏 AI:智能体可以在迷宫中探索,因找到钥匙而获得奖励,因撞到障碍物而受到惩罚。通过 TD,AI 会在每次移动后调整其策略,优化其对哪些路径有价值的理解。这种方法计算效率高,并且在即时反馈稀疏的环境中表现良好,使其成为机器人控制或推荐系统等实际应用的基石。