强化学习 (RL) 中的价值函数量化了代理在遵循给定策略的情况下,从特定状态(或状态-动作对)开始可以积累的预期长期奖励。它作为代理评估哪些状态或动作长期而言更有益的指南,而不仅仅是即时奖励。主要有两种类型:**状态价值函数** (V(s)),它估计在某个策略下从一个状态获得的预期回报;以及**动作价值函数** (Q(s,a)),它估计在某个状态下采取特定动作然后遵循该策略所获得的回报。这些函数帮助代理优先选择那些能带来更高累积奖励的动作,即使这些动作可能涉及短期权衡。
例如,考虑一个机器人在网格中导航以达到目标。撞到墙壁的即时奖励可能是 -1,而达到目标则获得 +10。价值函数不仅考虑这些即时奖励,还考虑未来的结果。如果一个状态具有高价值,这意味着机器人可以可靠地从该状态到达目标。假设机器人有两条路径:一条是带有危险地形(例如,湿滑的瓷砖)的较短路线,另一条是更长、更安全的路径。如果惩罚(例如,掉入陷阱)的风险超过了较短路径的好处,价值函数会给沿安全路径的状态分配更高的价值。这可以使用贝尔曼方程来计算,该方程将一个状态的价值递归地分解为其即时奖励加上未来状态的折扣(按比例缩减)价值。
在实践中,价值函数是 Q-Learning 和深度 Q 网络 (DQN) 等算法的核心。例如,Q-Learning 使用观察到的奖励和下一个状态的最大 Q 值迭代更新 Q(s,a) 的估计,促进探索和利用之间的平衡。例如,在游戏代理中,Q 函数可能会学到牺牲一个棋子(即时损失)在国际象棋中会导致更强的棋局(更高的长期价值)。价值函数还支持时间差分 (TD) 学习等技术,其中代理在与环境交互时增量地调整其估计。通过将决策建立在长期结果上,价值函数为 RL 代理在复杂、不确定的环境中优化行为提供了一种结构化的方法。