强化学习 (RL) 中的基于价值的方法是一类算法,它们侧重于学习状态或动作的价值来指导智能体的决策。这些方法不是直接优化策略(状态到动作的映射),而是估计智能体处于特定状态或采取特定动作有多大益处,以预期累积未来奖励来衡量。其核心思想是构建一个价值函数——例如状态价值函数 V(s)(处于状态 s 的价值)或动作价值函数 Q(s, a)(在状态 s 中采取动作 a 的价值)——并使用这些估计来选择最佳动作。例如,智能体可能在给定状态下始终选择具有最高 Q 值的动作。
基于价值方法的经典示例是 Q-学习,它使用 Bellman 方程更新 Q 值:Q(s, a) = Q(s, a) + α [r + γ maxₐ’ Q(s’, a’) - Q(s, a)]。其中,α 是学习率,γ 是折扣因子,术语 r + γ maxₐ’ Q(s’, a’) 表示基于即时奖励 r 和最佳可能的未来价值的目标价值。另一个示例是深度 Q 网络 (DQN),它使用神经网络来近似 Q 值,从而能够扩展到视频游戏等复杂环境。DQN 引入了诸如经验回放(存储过去的转换以打破训练数据中的相关性)和目标网络(独立的网络以稳定学习)等技术,解决了使用深度学习训练价值函数中的挑战。
基于价值的方法对于具有离散动作空间的问题很有效,因为它们避免了重复评估每个可能动作的计算成本。然而,它们在连续动作空间(例如机器人技术)中会遇到困难,因为在所有动作中寻找最大值变得不切实际。它们也倾向于关注贪婪策略(总是选择价值最高的动作),这可能导致次优探索。尽管存在这些限制,但基于价值的方法因其简单性以及在游戏(例如 Atari 游戏)或资源分配等领域的有效性而在强化学习中仍然是基础性的。开发者通常将它们与基于策略的方法(如 Actor-Critic 架构)结合使用,以平衡这两种范式的优势。