在强化学习 (RL) 中,任务根据其终止和交互时间线被分为片段式或连续式。片段式任务具有明显的开始和结束点,称为片段(episode),代理在达到终止状态后其交互会重置。例如,国际象棋比赛在将军时结束。连续式任务,也称为非片段式任务,没有预定义的结束点——代理无限期地与环境交互,目标是在没有片段重置的情况下最大化长期奖励。这种区分影响代理的学习方式、性能评估和奖励管理。
片段式任务围绕独立的试验进行构建。每个片段允许代理探索动作、接收奖励并重置到起始状态,从而实现清晰的性能评估。例如,训练代理玩电子游戏关卡涉及在代理获胜、失败或超出时间限制时结束的片段。这种结构简化了学习,因为代理可以在每个片段结束后分析完整的轨迹(状态-动作-奖励序列)。蒙特卡洛方法等算法利用这一点,仅在片段结束后才更新策略。片段式框架也简化了调试,开发人员可以按片段跟踪进度(例如,每个关卡的平均奖励)。然而,它们假定环境可以可靠地重置,这在现实世界系统中并非总是可行。
连续式任务要求代理在没有重置的情况下优化行为,这使得它们本质上更复杂。例如,一个保持平衡的机器人必须不断调整以应对干扰,而没有自然的结束点。在这里,折扣因子 (gamma) 对于优先考虑即时奖励而非遥远奖励至关重要,它可以防止无限的奖励总和。时序差分 (TD) 方法,如 Q-learning,经常被使用,因为它们无需等待片段完成即可增量更新估计值。连续式任务还面临在持续变化的环境中探索-利用权衡等挑战。开发人员必须仔细设计奖励函数,以避免意外行为,因为代理的行动具有无限的后果。自动驾驶或能源管理系统等现实世界应用通常属于此类,需要能够处理无限期交互和部分可观察性的算法。