AI 代理利用迁移学习,通过使用解决一个问题所获得的知识来提高在相关但不同的任务上的表现。开发者不是从头开始训练模型,而是从预训练模型开始,该模型已经从大型数据集中学习了一般的模式。当目标任务的数据有限时,这种方法尤其有用。例如,一个在通用图像识别(如识别汽车或动物)上训练的模型,可以通过在较小的 X 射线数据集上微调其最后几层来适应诊断医学图像。预训练层处理基本特征检测(边缘、纹理),而特定任务层学习识别特定领域的模式(例如,肿瘤)。
该过程通常涉及重用神经网络的早期层(捕获通用特征)并在新任务上重新训练后面的层。例如,在自然语言处理 (NLP) 中,像 BERT 或 GPT 这样的模型,在大量的文本语料库上进行了预训练,可以通过更新最终的分类层来适应情感分析或问答。TensorFlow 和 PyTorch 等框架通过允许开发人员在训练期间“冻结”某些层来简化这一过程。冻结可以防止预训练层的权重发生变化,从而降低计算成本和过度拟合的风险。例如,开发人员在调整视觉模型以识别图像中的特定工业缺陷时,可能会冻结视觉模型前 80% 的层,从而将训练精力集中在针对新数据定制的剩余层上。
迁移学习的好处包括更快的训练、减少的数据需求以及提高在专门领域的性能。一个实际的例子是使用在 ImageNet 上预训练的 ResNet 模型来分类植物疾病,只需几百张标记图像,而不是数百万张。然而,成功取决于源任务和目标任务之间的相似性。如果任务过于不同(例如,使用语音识别模型进行欺诈检测),迁移学习可能不会提供什么优势。开发人员还必须平衡要重新训练的模型数量:过少的调整会导致任务对齐效果差,而重新训练过多的层则会失去有用的预训练特征。Keras 的 include_top=False
选项或 Hugging Face 的 AutoModel
API 等工具可以帮助管理这种平衡,从而可以针对特定用例进行高效定制。