强化学习 (RL) 中的智能体是指通过与环境交互来学习做出决策的实体。 其目标是通过试错来最大化随时间的累积奖励信号。智能体观察环境的状态,根据其当前策略(称为策略)采取行动,并收到以奖励或惩罚形式存在的反馈。 例如,在游戏场景中,智能体可能是一个 AI,它通过尝试不同的路径并根据奖励(例如,到达目标的分数)调整其行为来学习在迷宫中移动角色。
智能体的行为由三个核心组件塑造:策略、价值函数,以及可选的环境模型。 策略定义了智能体的策略,就像将状态映射到行动的规则手册。 价值函数估计处于某种状态或采取某种行动的预期长期奖励,从而帮助智能体优先考虑更好的选择。 如果使用模型,则该模型允许智能体预测环境将如何响应其行动。 例如,自动驾驶汽车智能体可以使用策略来决定何时加速,使用价值函数来评估车道变更的安全性,并使用模型来根据历史数据预测交通模式。
可以根据智能体的方法对其进行分类。 无模型智能体(例如使用 Q 学习的智能体)直接从交互中学习,而无需构建环境模型。 基于模型的智能体(例如使用蒙特卡洛树搜索(AlphaGo 中使用)的智能体)模拟未来的状态以计划行动。 基于策略的智能体(例如使用策略梯度方法训练的智能体)通过调整行动概率来优化其决策策略。 开发人员会根据问题的复杂性和可用的计算资源来选择这些方法。 例如,简单的网格世界导航任务可能使用无模型的 Q 学习智能体,而复杂的机器人应用可能需要基于模型的方法来进行精确规划。