强化学习 (RL) 中的迁移学习是指重用从解决一项任务(源任务)中获得的知识,以提高相关但不同的任务(目标任务)的学习效率。在强化学习中,智能体通过与环境交互、接收奖励和调整其策略(即它用来做出决策的策略)来学习。迁移学习旨在利用部分已学习的策略、价值函数(未来奖励的估计)或环境动态,以减少新任务的训练时间或所需数据。例如,一个经过训练可以导航网格世界迷宫的智能体可能会重用其对运动和障碍物的理解,从而学习导航一个结构不同的迷宫。
有几种方法可以在强化学习中实现迁移学习。一种常见的方法是参数初始化,其中在源任务上训练的神经网络权重用作目标任务的起点。在新任务上训练期间微调这些权重通常会导致更快的收敛。另一种方法涉及转移已学习的特征或表示,例如神经网络中的卷积层,它们提取有用的模式(例如,用于游戏智能体的图像中的边缘)。基于模型的方法转移关于环境动态的知识,例如动作如何影响状态,这可以帮助智能体预测目标任务中的结果。例如,在模拟中训练的机器人可以使用其已学习的物理模型来更快地适应现实世界的条件。
实际示例突出了强化学习中迁移学习的好处。一个典型的用例是在模拟环境中(如物理模拟器中的机器人手臂)训练智能体,并将策略转移到真实世界的设置中,从而减少对昂贵的物理试验的需求。另一个例子是视频游戏智能体:在 Pong 上训练的 AI 可能会将其对球拍运动和球体物理学的理解转移到类似 Breakout 的游戏中。但是,成功取决于任务的相似性——在不相关的任务之间转移会导致负迁移,即先前的知识会阻碍学习。开发人员通常通过选择性地转移组件(例如,仅转移特征提取器)或使用元学习框架来识别跨任务的共享结构来解决这个问题。这些技术使迁移学习成为解决强化学习高计算和数据需求的实用工具。