AutoML 通过应用机器学习技术来生成合成数据,这些技术创建的新数据点类似于真实世界数据集的统计属性。常见的方法包括生成对抗网络 (GAN)、变分自编码器 (VAE) 和基于规则的增强。例如,GAN 使用两个神经网络——一个生成合成样本的生成器和一个评估其真实性的判别器——迭代改进,直到合成数据与真实数据无法区分。同样,VAE 将数据压缩到潜在空间并重建变体,从而实现受控生成。AutoML 框架根据输入数据类型和问题上下文自动选择和调整这些技术,从而减少手动工作。
为了确保质量,AutoML 工具使用度量标准来验证合成数据,这些度量标准比较真实数据和生成数据之间的分布、相关性和特征关系。 对于表格数据,可以使用统计测试(例如,用于特征分布的 Kolmogorov-Smirnov)或 Jensen-Shannon 散度等相似性分数。 对于图像,诸如 Fréchet Inception Distance (FID) 之类的指标可评估视觉保真度。 AutoML 系统还可以采用下游任务性能作为验证步骤——例如,在合成数据上训练模型并在真实数据上对其进行测试,以检查准确性是否下降。 诸如 Synthetic Data Vault 或 AutoGluon 之类的工具可以自动执行这些评估,从而为开发人员提供可操作的反馈以优化生成参数。
实际用例包括解决医疗保健等领域的数据稀缺问题,在这些领域中,生成合成医学图像可以在保护患者隐私的同时扩展训练数据集。 通过使用 SMOTE(合成少数过采样技术)等技术创建合成欺诈案例,AutoML 还可以平衡欺诈检测中不平衡的类别。 例如,AutoML 管道可能会分析一个具有 95% 非欺诈交易的数据集,自动应用 SMOTE 对 5% 的欺诈类别进行过采样,并通过分类器的精确率-召回率分数来验证合成数据的效用。 通过自动执行这些步骤,AutoML 使开发人员能够专注于模型构建,而不是手动数据工程。