强化学习中的情节性任务是指代理(agent)与环境的互动被分为一系列独立、自包含的情节。每个情节都有明确的起点和标志其结束的终止状态。代理的目标是在一个情节中最大化累积奖励,在终止后,环境会重置到初始状态。这种结构使得代理可以反复练习并从独立的试验中学习,而无需处理无限次的互动。例如,像国际象棋这样的游戏就可以被视为一个情节性任务,因为每场比赛都始于棋盘的标准布局,并在王被将死或平局时结束。
情节性任务的一个关键特点是可以通过平均多个情节的结果来评估代理的表现。这使得衡量进展变得更容易,因为每个情节都提供了一条完整的状态、行动和奖励轨迹。常见的例子包括电子游戏(如超级马里奥,玩家赢或输时关卡结束)、机器人模拟(如机械臂在限定时间内捡起物体)或在模拟环境中训练自动驾驶汽车(在碰撞或成功导航后情节重置)。这些有界限的情节简化了实验,因为开发者可以在有限的互动序列上测试算法,并系统地比较结果。
情节性任务影响着强化学习算法的设计方式。例如,蒙特卡洛方法依赖于完整的情节轨迹来估计值函数,因为它们需要知道从开始到终止的总奖励。相比之下,时序差分(TD)学习可以在情节内增量地更新估计值。情节框架还支持经验回放等技术,即将过去的情节存储起来并重新用于训练,提高样本效率。然而,开发者必须仔细处理终止状态——例如,确保代理在情节结束时停止采取行动。这种结构对于基准测试特别有用,因为它可以通过衡量每个情节的平均奖励或多次试验的成功率来清晰地比较不同算法的表现。