Actor-Critic 方法是一种强化学习 (RL) 方法,它结合了两个组件:一个 Actor,负责决定采取什么行动;以及一个 Critic,负责评估这些行动的质量。这种混合设计解决了纯粹基于策略(仅 Actor)或基于价值(仅 Critic)的方法的局限性。Actor 根据 Critic 的反馈调整其策略(选择行动的策略),Critic 估计状态或行动的预期长期奖励(价值)。通过整合这些角色,Actor-Critic 方法比单独的方法更有效地平衡了探索(尝试新行动)和利用(使用已知的有效行动)。
Actor 通常是一个神经网络或函数,它输出行动概率(例如,选择在游戏中向左或向右移动)。Critic 是另一个网络或函数,它预测处于某个状态或采取某个行动的价值,通常使用时间差 (TD) 误差——预测奖励和实际奖励之间的差异。例如,如果一个机器人(Actor)向前移动,并且 Critic 计算出该行动会导致比预期更高的未来奖励,则 Actor 会更新其策略,以优先考虑在类似状态下采取该行动。这种反馈循环不断发生:Critic 改进其价值估计,而 Actor 改进其决策,通常使用梯度上升进行策略更新,使用梯度下降进行价值估计。
与纯粹的策略梯度相比,Actor-Critic 方法的一个主要优势是其能够减少训练中的方差,因为 Critic 为评估行动提供了稳定的基线。诸如 Advantage Actor-Critic (A2C) 和 Deep Deterministic Policy Gradient (DDPG) 之类的算法使用此框架,其中 A2C 利用优势(一个动作比平均水平好多少)进行更新。但是,平衡 Actor 和 Critic 的学习率至关重要——如果一个组件学习得太快,系统就会变得不稳定。例如,在训练自动驾驶汽车时,调整不佳的 Critic 可能会低估安全制动,从而导致 Actor 优先考虑速度而不是安全。尽管存在这些挑战,但由于其灵活性和效率,Actor-Critic 方法仍然广泛用于机器人技术和游戏 AI 等复杂任务。