强化学习 (RL) 中的折扣因子是一个超参数,它决定了智能体对未来奖励相对于即时奖励的重视程度。用希腊字母 gamma (γ) 表示,其取值范围在 0 到 1 之间。在计算一系列行动的总预期奖励时,智能体会将未来奖励乘以 γ 的时间步长幂。例如,在未来 t 个时间步收到的奖励的权重是 γ^t * 奖励。这确保了距离现在越远的奖励对智能体决策的影响越小。折扣因子是强化学习算法的基础,因为它平衡了短期和长期规划,防止了在持续任务中出现无限的奖励总和。
γ 的选择直接影响智能体的行为。γ 接近 1(例如 0.99)会使智能体优先考虑长期奖励,鼓励包含延迟收益的策略。例如,在网格世界导航任务中,高 γ 可能会引导智能体选择稍长一点的路径来避开惩罚区域,因为它知道惩罚的长期成本大于短期的绕行。相反,低 γ(例如 0.1)使智能体关注即时奖励,这在需要快速决策的场景中很有用。例如,低 γ 的交易机器人可能会优先快速出售资产以获得小额利润,而不是等待不确定的更大收益。然而,过低的 γ 值可能导致短视行为,智能体因此错失需要耐心的最优策略。
实际上,选择 γ 需要权衡。对于有限回合任务(有明确结束点的任务),可以将 γ 设置接近 1,因为智能体在达到终点状态后自然停止积累奖励。对于持续任务,γ < 1 确保总奖励保持一个有限值,这对于算法收敛至关重要。大多数强化学习算法,如 Q-learning,在其更新规则中纳入 γ 以计算折扣的未来奖励。开发者通常通过实验来调整 γ:从 0.9 或 0.95 等值开始,并根据观察到的智能体行为进行调整。γ 选择不当可能导致训练不稳定或策略次优,因此它是调试强化学习系统时首批需要测试的参数之一。理解 γ 的作用有助于设计与问题时间动态相符的智能体。