贝尔曼最优方程是强化学习和动态规划中使用的一种数学公式,用于确定智能体在决策环境中的最优策略。它定义了通过遵循最佳可能动作,一个状态可以实现的最大预期长期奖励(或价值)。该方程是递归的:一个状态的价值取决于采取行动获得的即时奖励,以及来自后续状态的折扣未来奖励。形式上,对于状态 ( s ),最优价值 ( V^(s) ) 表示为 ( V^(s) = \max_a \left[ R(s, a) + \gamma \sum_{s’} P(s’ | s, a) V^*(s’) \right] ),其中 ( a ) 是一个动作,( R(s, a) ) 是即时奖励,( \gamma ) 是一个折扣因子(用于区分即时奖励和未来奖励的优先级),( P(s’ | s, a) ) 是采取动作 ( a ) 后转移到状态 ( s’ ) 的概率。该方程通过显式地寻找最大化总预期奖励的动作来确保智能体平衡探索和利用。
为了说明这一点,考虑一个在网格中导航的机器人。每个网格单元格都是一个状态,动作包括向北、向南等移动。假设机器人位于一个与目标相邻的单元格中。其当前状态的最优价值将是朝着目标移动的最大奖励(例如,到达目标的 +10),加上下一个状态的折扣价值(目标本身,其可能具有 0 的终端价值)。如果向东移动有 90% 的几率到达目标,并且有 10% 的几率撞到墙(奖励 -1),则该方程评估哪个动作(向东与其他动作)产生最高的加权奖励总和。这种递归评估向后传播,更新所有状态的价值,直到收敛。
对于开发者来说,贝尔曼方程是价值迭代和 Q 学习等算法的基础。在价值迭代中,您迭代地应用该方程来更新状态价值,直到它们稳定,然后通过选择最大化该方程的动作来推导出最优策略。然而,精确的解决方案需要知道环境的动态(转移概率 ( P )),这通常是不切实际的。在像 Q 学习这样的无模型方法中,该方程被调整为通过试错来估计动作价值(( Q ) 价值)。关键挑战是可扩展性:对于大型状态空间,精确计算变得不可行,从而导致使用神经网络进行近似(例如,深度 Q 网络)。理解这个方程有助于设计奖励结构、调整折扣因子以及调试无法收敛的智能体。