强化学习中的动作是什么? 在强化学习(RL)中,动作是智能体(agent)与环境互动时做出的决策。当智能体观察到环境的当前状态时,它会从预定义的可能性集合中选择一个动作,这会导致环境进入新状态并产生一个奖励信号。动作至关重要,因为它们直接影响环境的响应,并决定智能体能否随着时间推移最大化累积奖励。智能体可以采取的所有可能动作的集合称为动作空间(action space),其复杂性因问题而异。例如,在网格世界导航任务中,动作可能是简单的方向移动,如“上”、“下”、“左”或“右”。智能体的策略(policy)——一种将状态映射到动作的策略——决定了选择哪个动作,需要在探索(尝试新动作)和利用(使用已知有效动作)之间取得平衡。
动作的例子和类型 强化学习中的动作通常分为离散动作(discrete actions)或连续动作(continuous actions)。离散动作是有限且独立的,例如在电子游戏中按下按钮(如平台游戏中的“跳跃”或“射击”)或选择一个象棋走法。连续动作涉及一个范围内的值,例如调整机器人关节到特定角度或设置自动驾驶汽车的油门。例如,一架无人机可能具有用于控制飞行的俯仰、横滚和油门的连续动作。离散和连续动作空间的选择会影响算法的选择:Q-learning 适用于离散动作,而像 PPO(Proximal Policy Optimization)这样的策略梯度方法则处理连续空间。实际例子包括机器人技术(电机指令)、推荐系统(选择推荐项目)和自动驾驶汽车(转向或制动输入)。
动作的设计考量 设计动作空间需要在复杂性和实用性之间取得平衡。过大或结构不良的动作空间会使学习效率低下或难以实现。例如,一个拥有 10 个关节的机器人,每个关节都可以在连续范围内控制,这面临一个高维度的动作空间,需要像 DDPG(Deep Deterministic Policy Gradient)这样的高级算法。工程师通常通过分组相关动作(例如,“向前移动”而不是单独的腿部运动)或使用分层策略(高层动作触发子动作)来简化动作空间。动作屏蔽(action masking)——在特定状态下限制无效动作——是另一种技术,例如在角色处于空中时阻止“跳跃”动作。此外,参数化动作(parameterized actions)(例如,“以 30% 的力量扔球”)可以实现更精细的控制。动作设计直接影响训练时间、策略性能以及智能体的泛化能力。对于开发者来说,根据问题的约束和智能体的目标仔细定义动作,对于实现高效且有效的学习至关重要。