在强化学习(RL)中,折扣因子(gamma)决定了智能体对未来奖励的重视程度高于即时奖励的程度。它是一个介于 0 和 1 之间的值,gamma 越高(越接近 1),智能体越注重长期奖励,而 gamma 越低(越接近 0),则越强调短期收益。这个参数通过塑造价值函数直接影响智能体的学习行为,价值函数用于估计在给定状态下采取某个行动的预期累积奖励。例如,在网格世界导航任务中,高 gamma 会鼓励智能体找到通往远方目标的最近路径,即使这需要更多步,而低 gamma 可能会导致智能体偏爱即时奖励(例如,移向一个更近但非最优的目标)。
gamma 的选择会影响训练的稳定性和学习策略的质量。较高的 gamma 可能导致收敛速度较慢,因为智能体必须考虑更远未来的奖励,这增加了信用分配的复杂性。例如,在象棋这样的游戏中,获胜可能需要很多步,0.99 的 gamma 将帮助智能体认识到早期牺牲棋子以换取后期将死对手的长期价值。相反,较低的 gamma(例如 0.8)可能导致智能体低估这种战略性牺牲,从而导致非最优玩法。然而,非常高的 gamma 值也可能引入不稳定性,因为估计远期奖励的微小误差会随着时间累积。这在奖励稀疏或嘈杂的环境中尤其成问题,智能体可能难以学习有意义的模式。
在调整 gamma 时,开发者应考虑环境的时间范围和奖励结构。对于有明确短期目标(例如机器人在几步内抓取物体)的任务,较低的 gamma(例如 0.7–0.9)效果较好。对于长期规划,例如训练自动驾驶汽车导航复杂的交通,较高的 gamma(0.95–0.99)更可取。实验至关重要:从 0.99 这样的默认值开始,并根据观察到的行为进行调整。例如,如果一个基于 RL 的推荐系统优先考虑即时点击而不是用户留存,增加 gamma 可能会鼓励它优化长期参与度。此外,将 gamma 与奖励塑造或课程学习等技术结合使用可以减轻稀疏奖励等挑战。最终,gamma 是平衡探索、利用和智能体时间关注度的关键杠杆。