在强化学习 (RL) 中,策略定义了智能体在不同情况下如何决定采取哪些行动。 本质上,它是一组规则或一种策略,将智能体的当前状态(它对环境的观察)映射到行动。 策略可以是确定性的,其中特定状态总是导致相同的行动,也可以是随机性的,其中策略输出每个可能行动的概率。 例如,在一个智能体在迷宫中导航的网格世界游戏中,确定性策略可能总是在特定单元格中向左移动智能体,而随机策略可能会分配 70% 的概率向左移动,30% 的概率向上移动。 策略是塑造智能体行为的核心组成部分,而改进策略是大多数 RL 算法的主要目标。
策略是通过与环境的交互来学习的。在训练期间,智能体尝试行动、观察奖励(反馈),并调整其策略以最大化随时间的累积奖励。例如,在 Q 学习中,智能体会构建一个表格(Q 表),用于估计每个状态-动作对的预期奖励。 此处的策略可能是始终选择具有最高 Q 值(贪婪策略)的行动。 相比之下,策略梯度方法通过使用预期奖励的梯度上升来调整其参数,从而直接优化策略。 一个实际的例子是训练机器人行走:策略可以是一个神经网络,它将传感器数据作为输入并输出关节扭矩值。 网络参数会更新,以增加导致成功运动的行动的可能性。
策略的设计会显着影响智能体的性能和学习效率。 像查找表这样的简单策略适用于小状态空间,但在视频游戏或自动驾驶等复杂环境中会失败。 在这里,神经网络通常用作函数逼近器,以跨状态进行泛化。 策略还在探索(尝试新行动)和利用(使用已知的有效行动)之间取得平衡。 例如,Q 学习中的 epsilon-贪婪策略以概率 epsilon 随机探索,同时利用已知的最佳行动。 设计不佳的策略可能会陷入次优行为,而调整良好的策略可以适应动态环境。 最终,该策略封装了智能体的决策逻辑,使其成为 RL 系统设计中的一个关键焦点。