卷积神经网络 (CNN) 主要用于强化学习 (RL) 中,以处理高维视觉数据,使智能体能够解释复杂的环境,如图像或视频帧。与依赖手工状态表示的传统 RL 方法不同,CNN 自动从原始像素输入中提取空间特征。这在环境状态是视觉的任务中至关重要,例如视频游戏或机器人技术,在这些任务中,智能体必须“看到”其周围环境才能做出决策。例如,在 Atari 游戏智能体中,CNN 分析屏幕像素以检测游戏对象、障碍物和模式,然后 RL 算法使用这些对象、障碍物和模式来学习最佳动作。
CNN 擅长通过识别分层空间模式来降低原始视觉数据的复杂性。在 RL 中,这使得智能体可以专注于相关特征,而无需手动预处理。例如,自动驾驶汽车模拟可以使用 CNN 来处理摄像头馈送,识别车道、行人和交通信号。然后,RL 智能体将这些特征映射到转向或制动等动作。CNN 还通过维护输入帧之间的空间关系来处理部分可观察性,这在动态环境中至关重要。在 DeepMind 的 DQN (Deep Q-Network) 中,CNN 处理游戏帧以估计 Q 值(动作的预期奖励),从而使智能体可以直接从像素中学习策略。这种方法避免了手动特征工程的需要,使其可以在各种环境中扩展。
除了原始像素处理之外,CNN 还用于 RL 中的迁移学习和多任务设置。例如,在一种 RL 任务(例如,导航迷宫)上预训练的 CNN 可以针对相关任务(例如,避开动态障碍物)进行微调,从而加速训练。CNN 还使智能体能够处理不同的输入分辨率,例如来自机器人技术中不同相机角度的调整大小的图像。但是,在 RL 中训练 CNN 需要仔细的平衡:网络必须学习视觉特征,而 RL 算法会优化策略。诸如经验回放(存储过去的转换)和帧堆叠(使用多个帧作为输入)之类的技术有助于稳定训练。总而言之,CNN 弥合了原始感官数据和决策之间的差距,使其在视觉驱动的 RL 应用中不可或缺。