无模型和基于模型的强化学习 (RL) 是训练智能体在环境中做出决策的两种广泛方法。 关键区别在于智能体是否使用环境的显式模型。 无模型方法直接从与环境的交互中学习策略或价值函数,而不构建环境如何工作的表示。 基于模型的方法,相反,首先学习或假设一个环境模型(例如,预测状态转移或奖励),并在采取行动之前使用该模型来规划或模拟结果。 无模型方法通常更简单,但需要更多数据,而基于模型的方法旨在通过利用学习的模型来提高效率。
无模型 RL 侧重于试错学习。 诸如 Q-Learning、深度 Q 网络 (DQN) 和策略梯度方法(例如,REINFORCE)之类的算法属于此类。 例如,在游戏场景中,无模型智能体可能会通过反复玩游戏并观察奖励,将特定游戏状态与高价值动作联系起来,而无需了解控制状态转移的规则。 这些方法被广泛使用,因为它们避免了对环境进行建模的复杂性。 但是,它们可能是样本低效的:通过纯无模型 RL 训练机器人行走可能需要数百万个模拟步骤,因为智能体必须探索各种状态下的每个可能的动作才能发现最佳行为。
基于模型 RL 结合了环境的学习或预定义模型来模拟结果并提前计划。 例如,Dyna-Q 将无模型 Q-Learning 与学习的转移模型相结合,以生成用于训练的合成经验。 蒙特卡洛树搜索 (MCTS)(用于像 AlphaGo 这样的系统中)模拟未来的游戏状态来评估动作,而不仅仅依赖于过去的经验。 基于模型的方法可以实现更高的样本效率,因为智能体可以“想象”结果,而无需始终与真实环境进行交互。 但是,它们的性能在很大程度上取决于模型的准确性。 如果模型存在缺陷(例如,机器人的物理模拟器错误地预测了摩擦力),则智能体的计划可能会在现实世界中失败。 当环境交互成本很高(例如,机器人技术或医疗保健)时,开发人员通常会选择基于模型的方法,但必须权衡此方法与模型偏差的风险。