是的,AutoML 可以与现有的机器学习工作流程集成。 AutoML 工具旨在自动化机器学习流程中的特定步骤,例如数据预处理、模型选择或超参数调整,同时允许开发人员保留对流程其他部分的控制权。 大多数 AutoML 框架提供与常见工作流程一致的 API、库或命令行界面,从而可以将它们插入到现有代码库或系统中。 例如,可以以编程方式调用诸如 Google 的 AutoML Tables 之类的工具或诸如 Auto-Sklearn 之类的开源库,从而使开发人员可以将它们与自定义数据管道或评估脚本一起使用。 这种灵活性确保团队可以利用自动化,而无需彻底修改其整个基础架构。
一个关键的集成点是数据预处理。 AutoML 工具通常包括自动特征工程、缺失值处理或规范化,这些可以替换或增强工作流程中的手动步骤。 例如,如果团队已经使用 Pandas 或 Scikit-Learn 进行数据清理,则他们可以在初始预处理后使用 AutoML 来处理特征选择或转换。 同样,在模型训练期间,AutoML 可以自动执行特定算法的超参数优化(例如,调整梯度提升模型),同时允许开发人员保留对训练数据分割、评估指标或交叉验证策略的控制。 诸如 Keras Tuner 之类的工具可以直接与 TensorFlow 工作流程集成,从而可以在现有训练循环中实现自动超参数搜索。
最后,AutoML 可以与部署和监控工作流程共存。 例如,可以使用 AutoML 训练的模型可以导出为 ONNX 或 PMML 之类的标准格式,使其与围绕诸如 Flask、FastAPI 或 Kubernetes 之类的工具构建的现有部署管道兼容。 此外,团队可以使用 AutoML 进行快速原型设计或 A/B 测试 - 快速生成多个模型,然后使用其当前的 CI/CD 系统部署性能最佳的模型。 一个实际的例子是使用 H2O.ai 的 Driverless AI 自动创建模型,然后通过与公司现有微服务集成的 REST API 部署生成的模型。 这种方法在监控、日志记录和扩展方面保持一致性,同时受益于 AutoML 在早期阶段的效率。