强化学习 (RL) 中的样本效率指的是一种算法相对于其与环境交互(或“样本”)所需的次数,学习任务的好坏程度。一种样本高效的算法以最少的数据获得良好的性能,而一种低效的算法可能需要数百万次的试验才能达到相同的结果。这很重要,因为现实世界中的环境(如机器人或工业系统)通常具有与数据收集相关的高成本或风险。例如,通过试验和错误来训练物理机器人既耗时又可能损坏硬件。样本效率决定了强化学习解决方案对于这种情况是否实用。
提高样本效率通常涉及最大限度地提高每次交互的效用的技术。一种常见的方法是经验回放,用于 DQN 等算法,该算法将过去的转换存储在缓冲区中并重复使用它们进行训练。这有助于代理多次从罕见或关键事件中学习。另一种方法是基于模型的强化学习,其中代理构建环境的预测模型,以模拟没有实际交互的结果。例如,AlphaGo 首先通过从人类游戏中学习来减少真实游戏训练,然后通过自玩模拟来完善其策略。此外,离策略学习允许代理从旧策略甚至人类演示生成的数据中学习,如自动驾驶等应用中所见,其中历史驾驶数据加速了训练。
然而,提高样本效率涉及权衡。基于模型的方法依赖于准确的环境模型,这对于像天气预测这样的复杂系统来说可能难以创建。经验回放缓冲区需要仔细调整,以避免过度拟合过时的数据。像好奇心驱动学习这样的探索策略可以帮助代理更快地发现有用的状态,但它们也可能导致不相关或危险的行为。例如,一个被编程为探索新状态的机器人可能会优先随机移动其手臂而不是完成任务。最终,正确的平衡取决于问题:模拟可能足以用于视频游戏,但现实世界的任务需要最大限度地减少昂贵的试验和错误的算法。开发人员在选择或设计强化学习解决方案时必须权衡这些因素。