使用 Vertex AI 和 Python SDK 训练模型

本教程是完整的指南,介绍了如何使用 Python 版 Vertex AI SDK 创建自定义训练模型。在笔记本 (IPYNB) 文件中运行使用 Docker 容器训练和创建模型的代码。本教程适用于不熟悉 Vertex AI 但熟悉笔记本、Python 和机器学习 (ML) 工作流的数据科学家。

该过程开始使用 Google Cloud 控制台来创建包含您的工作的项目。在您的项目中,您将使用 Vertex AI Workbench 创建 Jupyter 笔记本。您可在笔记本环境中运行用于下载和准备数据集的代码,然后使用数据集创建和训练模型。在本教程结束时,经过训练的模型可生成预测。

本教程的目标是引导您在不到一小时的时间内完成创建预测所需的每个步骤。所用的数据集相对较小,因此训练模型所需的时间不会很长。完成后,您可以将所学知识应用到更大的数据集。数据集越大,预测结果就越准确。

教程步骤

  1. 前提条件 - 创建 Google Cloud 账号和项目。

  2. 创建笔记本 - 创建并准备 Jupyter 笔记本及其环境。您可使用该笔记本运行用于创建数据集、创建和训练模型以及生成预测的代码。

  3. 创建数据集 - 下载一个公开的 BigQuery 数据集,然后使用该数据集创建 Vertex AI 表格数据集。数据集包含您用于训练模型的数据。

  4. 创建训练脚本 - 创建要传递给训练作业的 Python 脚本。在训练作业训练和创建模型时,脚本会运行。

  5. 训练模型 - 使用表格数据集训练和部署模型。您可以使用该模型创建预测。

  6. 进行预测 - 使用模型创建预测。本部分还将引导您删除在本教程中创建的资源,以免产生不必要的费用。

您将完成的操作

本教程将逐步介绍如何使用 Python 版 Vertex AI SDK 执行以下操作:

  • 创建 Cloud Storage 存储桶以存储数据集
  • 对数据进行预处理以进行训练
  • 使用处理后的数据在 BigQuery 中创建数据集
  • 使用 BigQuery 数据集创建 Vertex AI 表格数据集
  • 创建和训练自定义训练的模型
  • 将经过自定义训练的模型部署到端点
  • 生成预测
  • 取消部署模型
  • 删除本教程中创建的所有资源,以免产生进一步费用

使用的计费资源

本教程使用与 Vertex AI、BigQuery 和 Cloud Storage Google Cloud 服务关联的可计费资源。如果您刚开始接触 Google Cloud,则可能能够免费使用其中一个或多个服务。Vertex AI 向新客户提供 $300 赠金,Cloud Storage 和 BigQuery 提供免费层级。详情请参阅以下内容:

为防止系统进一步收费,本教程的最后一步将引导您移除您创建的所有可结算费用的 Google Cloud 资源。