嵌入通过提供数据的结构化、低维表示来影响主动学习,这有助于算法识别最值得标记的信息性样本。主动学习依赖于选择能够最大程度地改进模型的数据点,而嵌入通过以原始数据无法实现的方式捕获语义关系来实现这一点。例如,在文本分类中,嵌入将单词或句子转换为向量,其中相似的含义在向量空间中更接近。这使得诸如不确定性抽样之类的主动学习策略可以优先处理决策边界附近或嵌入空间中密集但模糊区域中的示例。如果没有嵌入,模型可能难以有效地衡量相似性或不确定性,从而导致样本选择效率降低。
一个具体的例子是使用卷积神经网络 (CNN) 进行图像分类。来自 CNN 倒数第二层的嵌入将图像压缩成捕获视觉模式的特征向量。主动学习系统可以使用这些嵌入来查询模型预测不确定的图像——例如,嵌入位于两个类别之间的边界附近的样本。相比之下,由于高维度和噪声,使用原始像素数据会使衡量不确定性变得更加困难。另一个例子是使用 BERT 嵌入进行文本情感分析:主动学习可以通过分析句子在嵌入空间中的位置来优先处理语义复杂的句子(例如,讽刺或模棱两可的句子)。聚类嵌入也有助于基于多样性的抽样,其中选择批次数据以覆盖嵌入空间的不同区域,从而确保更广泛地覆盖数据分布。
从开发人员的角度来看,嵌入提高了主动学习的效率,但需要仔细的实施。预训练嵌入(例如,Word2Vec、ResNet 特征)节省了计算时间,但可能与目标任务并不完全一致。在主动学习期间微调嵌入可以使它们适应问题,但这会增加训练开销。开发人员还必须验证嵌入质量——质量差的嵌入(例如,那些未能捕获特定于任务的特征的嵌入)可能会误导主动学习选择不相关的样本。例如,在医学成像中,使用通用的图像嵌入可能会遗漏细微的异常,而使用在医学数据上训练的领域特定嵌入可以更好地指导样本选择。平衡计算成本、嵌入相关性和主动学习策略是最大限度地利用嵌入优势的关键,从而在保持模型准确性的同时减少标记工作量。