为 Ray on Vertex AI 进行设置

在开始使用 Ray on Vertex AI 之前,请按照以下步骤设置 Google 项目和 Vertex AI SDK for Python

  1. 按照设置项目和开发环境中的步骤为您的项目设置结算功能,安装 gcloud CLI 并启用 Vertex AI API。

    启用 Vertex AI API

  2. 前提条件:您应该知道如何使用开源 Ray 开发程序。

  3. 此处使用的 Python 版 Ray on Vertex AI SDK 是 Python 版 Vertex AI SDK 的一个版本,其中包含 Ray 客户端、Ray BigQuery 连接器、Vertex AI 上的 Ray 集群管理和 Vertex AI 上的预测。

    • 如果您在 Google Cloud 控制台中使用 Ray on Vertex AI,则 Colab Enterprise 笔记本将在您创建 Ray 集群后指导您完成 Python 版 Vertex AI SDK 安装过程。

    • 如果您在 Vertex AI Workbench 或其他交互式 Python 环境中使用 Ray on Vertex AI,请安装 Vertex AI SDK for Python:

      # The latest image in the Ray cluster includes Ray 2.33
      # The latest supported Python version is Python 3.10.
      $ pip install google-cloud-aiplatform[ray]

      安装 SDK 后,请先重启内核,然后再导入软件包。

  4. (可选)如果您计划从 BigQuery 读取数据,则需要创建新的 BigQuery 数据集或使用现有数据集。

  5. (可选)如需降低 Vertex AI 中发生数据渗漏的风险,您可以在创建集群时启用 VPC Service Controls 并指定 VPC 网络。如需了解详情,请参阅将 VPC Service Controls 与 Vertex AI 搭配使用

    如果启用 VPC Service Controls,您将无法访问边界外的资源,例如 Cloud Storage 存储桶中的文件。

  6. (可选)如需使用自定义容器映像,请将其托管在 Artifact Registry 上。借助自定义映像,您可以添加预构建容器映像中未包含的 Python 依赖项。如需构建自定义映像,请参阅 Docker 文档中的“打包软件”。

  7. (可选)如果您在 Vertex AI 上创建 Ray 集群时指定 VPC 网络,强烈建议您在项目中使用自动模式 VPC 网络。不支持自定义模式 VPC 网络和同一项目中的多个 VPC 网络,这可能会导致集群创建失败。

确保集群安全

遵循 Ray 最佳实践和准则,包括在受信任的网络上运行受信任的代码,以保护您的 Ray 工作负载。在云实例中部署 ray.io 属于共担责任模型。

如需详细了解 Google Cloud 最佳实践,请参阅 GCP-2024-020 安全公告

支持的位置

自定义模型训练的功能可用性表列出了 Ray on Vertex AI 的可用位置。

后续步骤