在强化学习 (RL) 中,奖励是智能体在采取行动后从其环境接收到的数字信号。它充当反馈,引导智能体朝着实现其目标前进。智能体的目标是学习一种策略(一种选择行动的策略),该策略可以最大限度地提高随时间累积的总奖励。奖励是基础,因为它们定义了智能体试图解决的问题。例如,在游戏中,获胜的奖励可能是 +1,失败的奖励可能是 -1,所有其他步骤的奖励可能是 0。如果没有奖励信号,智能体将没有改进其行为的方向。
奖励通常由奖励函数定义,奖励函数是环境设计的一部分。此函数指定智能体针对每个状态-动作对或状态转换获得的奖励量。例如,在机器人导航迷宫的任务中,奖励函数可能会给到达终点 +10 的奖励,撞到墙 -5 的奖励,以及每走一步 -0.1 的奖励以鼓励效率。奖励的选择直接影响智能体学习的内容。设计不当的奖励可能会导致意想不到的行为——比如智能体优先考虑短期收益而不是长期成功——甚至利用奖励系统中的漏洞。开发人员通常从简单的奖励结构开始,并根据观察到的智能体行为迭代地改进它们。
RL 中的一个关键挑战是平衡即时奖励与未来结果。这可以使用折扣因子来解决,折扣因子会降低智能体计算中未来奖励的价值。例如,0.9 的折扣因子意味着稍后两个步骤收到的奖励价值为其原始价值的 0.81 倍。这鼓励智能体优先考虑尽快产生更高回报的行动。奖励也可能是稀疏的(例如,仅在任务结束时给出)或密集的(频繁反馈),稀疏奖励通常会使学习更加困难。在实践中,开发人员可能会使用诸如奖励塑造(添加中间奖励)之类的技术来帮助智能体更快地学习。例如,自动驾驶汽车模拟可能会奖励智能体保持在车道内或保持安全速度,而不仅仅是到达目的地。