AutoML (自动机器学习) 和超参数优化 (HPO) 是机器学习中相关但不同的概念。 AutoML 是指整个机器学习流程的自动化,从数据预处理和特征工程到模型选择和部署。 相比之下,超参数优化是一个更狭窄的过程,侧重于调整特定模型的设置(超参数)以最大限度地提高其性能。 虽然 HPO 是 AutoML 的一个关键组成部分,但它只是更广泛的自动化工作流程中的一个步骤。 例如,AutoML 可能会处理诸如选择决策树或神经网络之类的任务,而 HPO 会微调所选模型的超参数,例如学习率或树深度。
AutoML 旨在减少构建和部署有效模型所需的人工工作量,使机器学习能够为具有不同专业知识的用户所用。 它包括多个阶段:清理数据、提取相关特征、选择或设计合适的模型架构、调整超参数以及验证结果。 诸如 Google 的 AutoML 之类的工具或诸如 TPOT 和 Auto-sklearn 之类的开源库可端到端地自动化这些步骤。 例如,AutoML 可能会自动处理缺失数据,通过估算值、生成交互特征、测试多种算法(例如,SVM、随机森林),并最终优化每个候选模型的超参数。 当从头开始或当最佳模型类型不明显时,这种整体方法很有用。
另一方面,超参数优化假设已选择模型架构,并且仅专注于提高其性能。 诸如网格搜索、随机搜索或贝叶斯优化之类的 HPO 方法有系统地探索超参数组合,以找到最有效的设置。 例如,在训练神经网络时,HPO 可能会调整隐藏层的数量、dropout 率或优化器设置。 诸如 Hyperopt、Optuna 或 scikit-learn 的 GridSearchCV 之类的工具专为该任务而设计。 开发人员通常在拥有首选模型(例如,梯度提升树)但需要改进其参数时使用 HPO。 虽然 HPO 是 AutoML 的一个关键部分,但它是一个有针对性的优化步骤,而不是完整的流程解决方案。 在实践中,AutoML 系统通常将 HPO 集成为许多自动化组件之一,但仅 HPO 并不能解决诸如数据准备或模型选择之类的更广泛的挑战。