强化学习 (RL) 问题由四个核心组成部分构成:**智能体**、**环境**、**动作** 和 **奖励**。 智能体是与环境交互并采取行动的决策者。环境代表智能体运行的世界,以状态和奖励的形式提供反馈。 动作是智能体做出的选择,它会影响环境的状态。 奖励是数值信号,通过指示行动的即时价值来引导智能体朝着目标前进。 此外,RL 问题通常涉及**策略**(智能体选择行动的策略)和**价值函数**(估计长期成功)。 有些设置还包括环境**模型**,但许多 RL 算法在没有模型的情况下运行(无模型方法)。
**智能体-环境交互**构成了 RL 的基础。例如,考虑一个学习导航迷宫的机器人。 智能体(机器人)观察其当前状态(在迷宫中的位置)并选择一个动作(向左、向右等)。 环境(迷宫)根据行动更新机器人的状态并提供奖励(例如,到达出口 +100,撞到墙 -1)。 该策略可能从随机移动开始,但通过最大化累积奖励随时间推移而改进。 开发人员通常将这种交互形式化为马尔可夫决策过程 (MDP),该过程假定当前状态包含决定下一步行动所需的所有信息。 现实世界的应用,例如训练自动驾驶汽车以避免碰撞,遵循类似的循环:汽车的传感器提供状态数据,动作是转向或制动决策,奖励反映安全或不安全的结果。
**奖励函数**和**价值函数**对于平衡短期和长期目标至关重要。 奖励函数定义了问题的目标——例如,玩游戏的 AI 可能会因为获胜而获得 +1,因为失败而获得 -1,否则为 0。 但是,仅靠奖励并不能说明延迟的后果。 价值函数通过估计智能体从某个状态开始可以期望获得的总奖励来解决这个问题,并按一个因子(例如,每步 0.9)进行折扣,以优先考虑近期奖励。 例如,送货无人机可能会重视快速到达目的地(高即时奖励),但也避免耗尽电池的路径(防止未来的惩罚)。 开发人员实施诸如 Q 学习或策略梯度之类的算法来优化这些函数,通常使用探索策略(例如,epsilon-greedy)来平衡尝试新操作与利用已知的良好操作。 了解这些组件有助于设计有效学习并避免局部最优或奖励错位等陷阱的 RL 系统。