强化学习(RL)中的奖励塑造是一种通过修改智能体从环境中接收到的奖励信号来改进智能体学习过程的技术。 在 RL 中,智能体通过最大化累积奖励来学习,但稀疏或结构不良的奖励(例如,仅在完成任务时才获得奖励)会使学习变得缓慢或无效。 奖励塑造通过添加补充奖励来解决此问题,这些补充奖励可以引导智能体朝着期望的行为发展。 例如,在迷宫导航任务中,默认奖励可能是到达目标时 +1,否则为 0。 通过奖励塑造,即使智能体尚未到达目标,也可以因靠近目标而获得少量正奖励。 这些中间奖励通过在探索期间提供更清晰的反馈来帮助智能体更快地学习。
奖励塑造的常见方法是基于势函数的塑造,它可以确保补充奖励不会改变最优策略——智能体的最佳策略。 此方法使用势函数,该函数根据每个状态的期望值为其分配一个值。 然后,补充奖励计算为当前状态和下一个状态之间的势函数之差。 例如,在网格世界示例中,势函数可以测量到目标的曼哈顿距离。 如果智能体从距离 5 个单元格的状态移动到距离 4 个单元格的状态,则塑造奖励将为 +1。 这种方法保持了原始目标(到达终点),同时鼓励进步。 开发人员通常通过定义特定领域的启发式方法来实现这一点,例如奖励机器人朝向正确的方向或暂时惩罚游戏角色进入危险区域。
虽然奖励塑造可以加速学习,但它需要仔细设计。 选择不当的补充奖励可能会导致智能体利用塑造的奖励而不是解决实际任务。 例如,如果生存游戏中的智能体因收集医疗包而获得奖励,它可能会优先囤积这些医疗包而不是击败敌人。 过度塑造也可能使智能体过度依赖设计者的假设,从而降低其适应新场景的能力。 为了缓解这种情况,开发人员应首先在简化的环境中测试塑造的奖励,并验证智能体的行为是否与预期目标一致。 如果应用正确,奖励塑造可以在指导和灵活性之间取得平衡,使其成为机器人控制或游戏 AI 等复杂 RL 问题的实用工具。