AutoML 通过自动化构建模型的复杂步骤来简化多标签分类,这些模型可以预测每个输入的多个标签。在多标签问题中,每个数据实例可以同时属于多个类(例如,一张照片被标记为“海滩”、“日落”和“人”)。 AutoML 工具通过简化数据预处理、模型选择和专门为多标签场景量身定制的超参数调整来处理这个问题。 它们抽象了技术复杂性,让开发人员可以专注于定义问题和解释结果。
首先,AutoML 工具预处理数据以实现多标签兼容性。 它们自动将标签编码为二进制向量(例如,对于三个可能的标签为 [1, 0, 1])等格式,并在保留标签分布的同时拆分数据集。 例如,Auto-Sklearn 或 H2O.ai 等工具检测多标签数据集并应用诸如标签幂集编码(分组标签组合)或二元相关性(为每个标签训练一个二元分类器)等策略。 它们还处理特征工程,例如用于文档标记任务的文本标记化,其中一篇新闻文章可能需要“政治”、“经济”和“技术”等标签。 这减少了手动构建多标签兼容数据的精力。
接下来,AutoML 优化模型架构和训练。 它测试适用于多标签输出的算法,例如具有多输出分支的决策树、最终层中具有 sigmoid 激活的神经网络(用于独立的标签概率)或二元分类器的集成。 例如,AutoKeras 可能会探索一个自定义神经网络,其中每个输出节点对应一个标签,调整层和 dropout 率以防止过度拟合。 超参数调整是根据诸如 Hamming 损失(测量不正确的标签预测)或子集准确度(所有标签的完全匹配)等多标签指标量身定制的。 诸如 TPOT(基于树的管道优化工具)之类的工具会生成将特征选择、缩放和模型训练相结合的管道,专门用于这些目标。
最后,AutoML 简化了评估和部署。 它提供了内置的指标,例如 precision@k(前 k 个预测中的正确标签)和可视化(例如标签相关矩阵),以帮助开发人员诊断性能差距。 例如,植物物种分类器可能会显示稀有标签的召回率较低,从而提示进行类平衡技术。 诸如 Google 的 Vertex AI 或 Azure ML 之类的 AutoML 工具随后会将最佳模型导出为可部署的 API 端点,从而处理可扩展性和推理优化。 这种端到端自动化使开发人员即使在处理复杂的多标签要求时,也可以快速迭代,而无需在专门的算法方面具有深入的专业知识。