强化学习 (RL) 与其他机器学习范式的不同之处主要在于,它从交互中学习,而不是从静态数据集中学习。 在监督学习中,模型在带标签的示例上进行训练,其中每个输入都有相应的正确输出,例如对图像进行分类或预测房价。 无监督学习识别未标记数据中的模式,例如聚类客户群或减少数据维度。 然而,RL 涉及智能体通过与环境交互来学习做出决策。 智能体根据其行为接收奖励或惩罚形式的反馈,旨在随着时间的推移最大化累积奖励。 例如,像 AlphaGo 这样的游戏 AI 通过玩数百万场游戏来学习,并根据输赢调整其策略,这与需要预先标记的最佳移动数据集的监督模型不同。
一个关键的区别在于反馈机制。 监督学习依赖于即时、显式的标签(例如,“这张图片是一只猫”),而 RL 处理延迟的、通常是稀疏的奖励。 智能体可能直到许多步之后才知道某个动作是否良好,从而产生一个信用分配问题。 此外,RL 需要平衡探索(尝试新动作以发现奖励)和利用(使用已知的有效动作)。 例如,学习走路的机器人可能会尝试不同的腿部运动(探索),但最终必须优先考虑使其保持直立的动作(利用)。 这与监督学习形成对比,在监督学习中,模型遵循固定的数据集而无需探索,或者与根本没有明确反馈的无监督学习形成对比。
RL 的应用和挑战也使其与众不同。 它擅长于预定义规则不切实际的动态环境,例如训练自动驾驶汽车或优化实时系统中的资源分配。 然而,RL 通常需要大量的计算资源和对奖励函数的仔细设计。 设计不良的奖励会导致意外行为——例如,最大化用户点击次数的推荐系统可能会无意中宣传耸人听闻的内容。 与针对验证集衡量性能的监督学习不同,RL 的成功取决于智能体适应未知场景的能力。 这些因素使 RL 在顺序决策任务中功能强大,但与其他范式相比,实现起来更加复杂。