强化学习(RL)中的世界模型是内部表示,允许智能体在环境中模拟和预测其行为的结果。与智能体直接从交互中学习策略的无模型强化学习不同,基于模型的方法(使用世界模型)侧重于建立对环境如何运作的预测性理解。世界模型充当智能体内部的“模拟器”,使其能够根据当前状态和拟议行动预测未来的状态和奖励。这减少了对持续真实世界实验的需求,使训练更高效。例如,在机器人领域,世界模型可以预测机器人的移动如何影响其位置,使其无需物理测试每种可能的运动即可规划路径。
实现世界模型通常涉及训练神经网络来近似环境的动力学。模型将当前状态和行动作为输入,并输出预测的下一个状态和奖励。开发者通常使用循环神经网络(RNN)或 Transformer 等架构来捕捉序列任务中的时间依赖性。例如,Dreamer 算法使用潜动力学模型将高维观测(例如,来自摄像机的像素)压缩到低维潜在空间中。这种压缩表示允许智能体通过在潜在空间中模拟轨迹来高效地执行长时程规划。另一个例子是 AlphaGo 使用的策略网络和树搜索,它隐式地依赖于游戏规则模型来评估未来的棋盘状态。
世界模型的优势包括提高了样本效率,以及能够在执行前对行动进行“心理预演”。然而,它们的准确性至关重要:如果模型的预测与现实不符,智能体的计划可能会失败。例如,依赖不完美世界模型的自动驾驶汽车可能会误判行人的行为,导致不安全的决策。平衡模型复杂性也是一个挑战——过于简单的模型可能缺乏预测能力,而过于复杂的模型则计算成本高昂。尽管存在这些权衡,世界模型仍然是强化学习中的一个关键工具,特别是对于真实世界交互成本高昂或耗时的任务,如工业自动化或气候建模。开发者通常将它们与无模型技术结合使用,以减轻不准确性,同时保持效率。