强化学习(RL)是一种机器学习范式,其中智能体通过与环境交互来学习做出决策。智能体执行行动并以奖励或惩罚的形式接收反馈,其目标是随着时间的推移最大化累积奖励。与依赖标记数据的监督学习不同,强化学习侧重于通过试错来学习。关键组成部分包括智能体(决策者)、环境(智能体与之交互的系统)、行动(智能体可以做出的选择)、状态(环境的当前状况)和奖励(表示成功或失败的数字反馈)。例如,一个学习在迷宫中导航的机器人通过尝试不同的路径使用强化学习,当靠近出口时获得正奖励,并根据结果调整其策略。
强化学习算法通常需要平衡探索(尝试新行动以发现其效果)和利用(使用已知能够产生高奖励的行动)。一种常见的方法是 Q-learning,智能体学习一个 Q 值表,该表估计在给定状态下执行特定行动的预期奖励。另一个例子是策略梯度方法,它直接优化智能体的决策策略(选择行动的策略)。例如,训练计算机下棋涉及智能体尝试棋步,因将军对手获得奖励,并随着时间推移完善其策略。算法通常依赖于诸如折现未来奖励的概念,其中即时奖励比远期奖励更受重视,以及预测行动长期结果的价值函数。
强化学习广泛应用于机器人、游戏 AI 和自主系统。应用包括训练机器人执行复杂任务(例如抓取物体)、优化实时系统中的资源分配以及开发用于围棋或 Dota 2 等游戏的 AI。然而,挑战包括稀疏奖励(反馈不频繁,使学习变慢)、样本效率低下(需要大量的交互数据)以及设计能够准确反映所需行为的奖励函数。例如,如果自动驾驶汽车智能体的奖励函数过度优先考虑速度而不惩罚不安全的动作,它可能会遇到困难。OpenAI Gym 和 TensorFlow Agents 等库提供的框架为实现强化学习解决方案提供了工具,但成功往往取决于仔细调整超参数和奖励结构,以使智能体的目标与预期任务对齐。