创建机器学习流水线

如需在 AI Platform Pipelines 上运行机器学习(ML)流程,您必须先将进程定义为流水线。您可以使用 TensorFlow Extended(TFX)或 Kubeflow Pipelines SDK 将机器学习流程编排成流水线。

本文档提供了有关如何选择构建流水线的最佳选项的指导,以及入门资源。

使用 TFX SDK 构建流水线

TFX 是一个开放源代码项目,可用于将机器学习工作流定义为流水线。目前,TFX 组件只能训练基于 TensorFlow 的模型。TFX 提供了可用于提取和转换数据,训练和评估模型,部署经过训练的用于推理的模型之类的组件。通过 TFX SDK,您可以使用 TFX 组件为机器学习进程创建流水线。

如需开始使用 TFX 流水线模板构建流水线,请执行以下操作:

使用 Kubeflow Pipelines SDK 构建流水线

Kubeflow Pipelines SDK 是一个开源 SDK,可用于基于容器构建复杂的自定义机器学习流水线。您可以使用 Kubeflow Pipelines SDK 重复使用预先构建的组件或构建自定义流水线组件。概括来说,您可以通过以下方式构建组件和流水线:

  1. 使用首选语言和工具为工作流中的每个步骤开发代码
  2. 为每个步骤的代码创建一个 Docker 容器映像
  3. 借助 Python,使用 Kubeflow Pipelines SDK 定义流水线

如需开始使用 Kubeflow Pipelines SDK 构建流水线,请执行以下操作:

后续步骤