基于模型的强化学习 (RL) 算法学习环境动态的显式模型,以规划或优化策略。与直接从交互中学习策略或价值函数的无模型方法不同,基于模型的方法首先构建一个预测模型,该模型预测环境如何响应行动。常见的例子包括 Dyna、基于模型的策略优化 (MBPO)、Dreamer 和用于学习控制的概率推理 (PILCO)。这些算法通常通过使用学习到的模型来模拟经验来优先考虑样本效率,从而减少了对昂贵的现实世界交互的需求。
一种突出的算法是 Dyna,它将真实世界的数据与来自学习模型的模拟展开相结合。例如,Dyna-Q 交替使用实际经验更新 Q 表,并从模型生成合成转换以改进策略。另一个例子是 PILCO,专为连续控制任务而设计。PILCO 使用高斯过程来模拟动态,并利用概率推理来优化策略,使其在低数据设置中有效。像 MBPO 这样的现代方法通过训练神经网络模型的集合来减少预测误差,从而扩展了这些想法。然后使用短的模拟轨迹优化策略,从而平衡了探索和利用。Dreamer 是一种较新的算法,它从像素中学习潜在的动态模型,并使用它完全在想象中训练策略,从而可以从高维观测中进行高效学习。
基于模型的 RL 的主要优点是减少了对真实世界交互的依赖,这在机器人等数据收集缓慢或昂贵的领域中至关重要。但是,如果模拟数据与现实有偏差,则模型不准确会导致次优策略。像集成模型(如 MBPO 中)或不确定性感知规划(如 PILCO 中)等技术有助于缓解这种情况。应用范围从游戏代理(如 AlphaZero 使用学习的模型进行蒙特卡罗树搜索)到用于精确控制的工业机器人。虽然基于模型的方法需要仔细调整模型学习过程,但其效率和可扩展性使其成为许多现实问题的实用选择。