离策略学习是强化学习 (RL) 的一种方法,其中智能体使用由不同行为策略(它用于探索环境的策略)生成的数据来学习目标策略(它旨在优化的策略)。与要求智能体遵循相同的策略进行探索和学习的同策略方法不同,离策略方法将这些角色分离。这允许智能体重用过去的经验或来自其他来源的数据,例如人类演示或次优策略,以提高效率和灵活性。例如,离策略算法可以从策略的旧版本收集的历史数据中学习,从而无需不断收集新数据即可实现持续改进。
离策略学习的一个关键优势是它能够利用多样化或预先存在的数据集。例如,Q 学习(一种经典的离策略算法)基于最大预期未来奖励来更新其价值估计,即使该动作在探索期间未被采取。这是可能的,因为 Q 学习将用于选择动作的策略(例如,epsilon-greedy 探索)与正在优化的策略(选择最高价值动作的贪婪策略)分开。另一个例子是深度 Q 网络 (DQN),它使用经验回放来存储和随机抽样过去的转换。通过重用这些经验,DQN 打破了数据中的相关性并稳定了训练。离策略方法在数据收集成本高昂或风险较高的现实场景(例如机器人技术)中特别有用,因为它们能够从有限或异构数据源中学习。
然而,离策略学习引入了挑战,例如处理行为策略和目标策略之间的分布不匹配。例如,如果行为策略很少采取对目标策略至关重要的某些动作,则智能体可能难以学习准确的价值估计。诸如重要性采样之类的技术会调整经验的权重,以考虑策略之间动作概率的差异,从而缓解此问题。尽管存在这些复杂性,但离策略方法已在实践中得到广泛使用。应用包括推荐系统(从记录的用户交互中学习)和自动驾驶(在人类和模拟数据的混合数据上进行训练)。通过实现数据的有效重用和灵活的探索策略,离策略学习仍然是可扩展和实用的强化学习解决方案的基础工具。