在强化学习 (RL) 中,“从交互中学习”意味着智能体通过在环境中积极实验、观察结果并根据反馈调整其行为来改进其决策。 与监督学习(模型从静态标记数据集学习)不同,RL 智能体通过试错来学习。 智能体采取行动,接收奖励或惩罚,并使用此反馈来随着时间的推移更新其策略(策略)。 这个过程反映了人类学习骑自行车等技能的方式:您尝试动作,注意哪些有效,并通过反复尝试来改进您的方法。
核心机制涉及三个组成部分:智能体、环境和反馈循环。 例如,考虑一个机器人学习导航迷宫。 智能体(机器人)首先随机移动(探索)。 每个动作(例如,左转)都会改变机器人的状态(位置)并产生奖励(例如,靠近出口 +1,撞到墙 -1)。 随着时间的推移,智能体会构建一种策略,将状态映射到可能最大化累积奖励的行动。 这需要平衡探索(尝试新动作)和利用(使用已知的成功动作)。 智能体可以使用 Q 学习等算法来迭代更新一个表格(Q 表),该表格存储特定状态下行动的预期价值。
实际挑战出现是因为反馈通常是延迟的或稀疏的。 例如,一个玩游戏的 AI 可能只在 10 分钟比赛结束时收到奖励,因此很难将特定行动与结果联系起来。 时间差分学习等技术通过将长期奖励分解为更小的增量更新来提供帮助。 此外,具有复杂状态空间的环境(例如,自动驾驶)需要函数逼近(如神经网络)才能从有限的交互中进行泛化。 这些示例突出了 RL 系统如何必须处理嘈杂的实时数据,同时不断适应——这就是交互驱动学习既强大又需要大量计算的关键原因。