分层强化学习 (HRL) 是一种将复杂任务分解为较小、易于管理的子任务并按层次结构组织的方法。 HRL 不会为整个问题学习单一策略,而是使用多个决策级别。 较高级别处理抽象目标,而较低级别执行具体操作。 这种方法模仿了人类通过将大型问题分解为步骤来解决问题的方式,使代理更容易在具有长期依赖关系或稀疏奖励的环境中学习和泛化。
HRL 的一个关键思想是时间抽象。 例如,高级策略可能决定在机器人任务中“导航到房间”,而低级策略处理“避开障碍物”或“向左转”等操作。 高级策略设置子目标(例如,“到达门口”),并将其委托给在较长时间内运行的较低级别。 这通过限制每个策略的范围来降低学习的复杂性。 诸如选项框架或 MAXQ 分解等技术通过定义可重用的子任务来形式化这一点。 例如,在送货机器人中,一个选项可以是“拿起物品”,其中涉及移动到物品并抓住它等子动作。 每个子任务都可以经过预训练并在不同的场景中重复使用,从而提高效率。
HRL 提供了实际的好处。 首先,它通过减少代理需要探索的决策数量来加速训练。 例如,使用 HRL 的游戏 AI 可能具有“获取资源”的高级策略和“挖掘矿石”或“建造单位”的低级策略。 其次,它提高了迁移学习:诸如“避开物体”之类的子任务可以在不同的任务中重复使用。 然而,挑战包括设计层次结构(手动或通过自动化)并确保级别之间的协调。 诸如 RLlib 之类的库支持 HRL 实现,使开发人员能够在自定义环境中试验分层结构。