MuZero 通过构建和完善环境的内部模型,在未知环境中学习操作。与依赖于预定义规则或动态的传统强化学习 (RL) 方法不同,MuZero 使用神经网络来预测三个关键要素:环境状态、行动的奖励以及策略(即,哪些行动有希望)。这些预测由表示网络(将观察结果编码为潜在状态)、动态网络(预测未来的潜在状态和奖励)和预测网络(估计状态的策略和价值)组合而成。通过训练这些网络以最小化预测误差,MuZero 有效地构建了对环境行为的理解,而无需明确的先验知识。
例如,在学习玩 Atari Breakout 等游戏时,MuZero 不会收到有关球或球拍物理的信息。相反,它观察屏幕上的像素,并使用试错法来推断行动(例如,左右移动球拍)如何影响游戏状态。在训练期间,MuZero 使用其内部模型模拟假设的未来轨迹。它通过平衡探索(尝试新行动)和利用(利用已知策略)来选择使预测奖励最大化的行动。随着时间的推移,该模型通过将其预测(例如,“球将以这个角度弹跳”)与实际结果进行比较来改进,通过梯度下降调整其神经网络以减少差异。
关键的创新在于 MuZero 将环境动力学与规划分离。即使在不知道真实规则的情况下,学习到的模型也能通过蒙特卡洛树搜索 (MCTS) 实现规划。 MCTS 使用动态和预测网络来模拟可能的未来步骤,评估其结果并选择最佳行动。这种方法允许 MuZero 处理复杂的、部分可观察的环境——例如视频游戏或机器人控制任务——通过不断完善其内部模型。随着收集更多数据,模型的准确性会提高,从而使系统能够适应各种场景。开发人员可以通过训练神经网络来预测状态转换和奖励,然后将它们与 MCTS 等规划算法集成以进行决策,从而将类似的原则应用于其他领域。