监督学习和基于 Agent 的学习是机器学习中截然不同的方法,每种方法都适用于不同类型的问题。监督学习依赖于带标签的数据集来训练模型,其中每个输入示例都与已知的输出配对。目标是学习从输入到输出的映射,使模型能够对新的、未见过的数据进行预测。例如,可以使用一个数据集训练一个监督学习模型来对猫和狗的图像进行分类,其中每个图像都明确标记为“猫”或“狗”。该模型通过使用梯度下降等技术最小化预测误差(通过损失函数)来调整其参数。
相比之下,基于 Agent 的学习侧重于训练自主 Agent 通过与环境交互来做出决策。Agent 不是从静态标记数据中学习,而是通过试错来学习,通常由奖励或惩罚引导。这种方法在强化学习中很常见,在这种学习中,Agent 学习一种策略,以最大化随时间推移的累积奖励。例如,在迷宫中导航的机器人通过尝试移动并因到达目标而获得正奖励或因撞到障碍物而获得负奖励来学习。与监督学习不同,基于 Agent 的方法不需要预先标记的数据;相反,Agent 通过探索和来自环境的反馈来发现策略。
主要区别在于数据需求和问题结构。监督学习需要一个固定的、精心策划的数据集,其中包含清晰的输入-输出对,使其对于回归、分类或对象检测等任务有效。基于 Agent 的学习更适合动态的、顺序的决策问题,例如游戏 AI(例如 AlphaGo)或自动驾驶汽车控制,其中动作会影响未来的状态。虽然监督学习优化了预定义标签的准确性,但基于 Agent 的系统优化了长期目标,通常需要模拟或真实世界的交互。开发人员根据问题是否涉及结构化预测(监督)或自适应的、交互式行为(基于 Agent)来选择它们。