使用 Dataproc JupyterLab 插件进行无服务器批处理和交互式笔记本会话

本文档介绍了如何在有权访问 Google 服务的机器或虚拟机(例如本地机器或 Compute Engine 虚拟机实例)上安装和使用 Dataproc JupyterLab 插件。此外,还介绍了如何开发部署 Spark 笔记本代码。

安装 Dataproc JupyterLab 插件后,您可以使用它执行以下任务:

  • 启动 Dataproc Serverless for Spark Interactive 笔记本会话
  • 提交 Dataproc Serverless 批处理作业

Dataproc Serverless 的限制和注意事项

  • Spark 作业使用服务账号身份(而不是提交用户的身份)执行。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Dataproc API.

    Enable the API

  4. Install the Google Cloud CLI.
  5. To initialize the gcloud CLI, run the following command:

    gcloud init
  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  7. Enable the Dataproc API.

    Enable the API

  8. Install the Google Cloud CLI.
  9. To initialize the gcloud CLI, run the following command:

    gcloud init
  10. 确保您将在其中运行 Dataproc Serverless Interactive 会话的区域 VPC 子网已启用专用 Google 访问通道。如需了解详情,请参阅创建 Dataproc Serverless 运行时模板

安装 Dataproc JupyterLab 插件

您可以在有权访问 Google 服务的机器或虚拟机(例如本地机器或 Compute Engine 虚拟机实例)上安装和使用 Dataproc JupyterLab 插件。

如需安装该插件,请按以下步骤操作:

  1. python.org/downloads 下载并安装 Python 3.8 或更高版本。

    • 验证 Python 3.8 或更高版本的安装情况。

      python3 --version
  2. 在您的计算机上安装 JupyterLab 3.6.3+

    pip3 install --upgrade jupyterlab
    • 验证 JupyterLab 3.6.3 及更高版本的安装。

       pip3 show jupyterlab
       ```
  3. 安装 Dataproc JupyterLab 插件。

    pip3 install dataproc-jupyter-plugin
    • 如果您的 JupyterLab 版本低于 4.0.0,请启用插件扩展程序。

       jupyter server extension enable dataproc_jupyter_plugin
       ```
  4. 启动 JupyterLab

    jupyter lab
    1. JupyterLab 启动器页面会在浏览器中打开。其中包含 Dataproc 作业和会话部分。如果您有权访问 Dataproc Serverless 笔记本或在项目中运行 Jupyter 可选组件的 Dataproc 集群,该标签页还可能包含 Dataproc Serverless NotebooksDataproc Cluster Notebooks 部分。

    2. 默认情况下,您的 Dataproc Serverless for Spark Interactive 会话会在您在开始前须知部分运行 gcloud init 时设置的项目和区域中运行。您可以在 JupyterLab 的设置 > Dataproc 设置页面更改会话的项目和区域设置。

创建 Dataproc Serverless 运行时模板

Dataproc Serverless 运行时模板(也称为 session 模板)包含用于在会话中执行 Spark 代码的配置设置。您可以使用 Jupyterlab 或 gcloud CLI 创建和管理运行时模板。

JupyterLab

  1. 在 JupyterLab Launcher 页面的 Dataproc Serverless Notebooks 部分中,点击 New runtime template 卡片。

  2. 填写运行时模板表单。

  3. 指定显示名称说明,然后输入或确认其他设置。

    注意:

    • 网络配置子网必须启用专用 Google 访问通道,并且必须允许所有端口上的子网通信(请参阅 Dataproc Serverless for Spark 网络配置)。

      如果您在开始前准备工作中运行 gcloud init 时配置的区域的 default 网络子网未启用专用 Google 访问通道,请执行以下操作:

      • 为专用 Google 访问通道启用该功能,或
      • 选择另一个具有已启用专用 Google 访问通道的区域子网的网络。 您可以通过 JupyterLab 的设置 > Dataproc 设置页面更改 Dataproc Serverless 使用的区域。
    • Metastore:如需在会话中使用 Dataproc Metastore 服务,请选择 Metastore 项目 ID、区域和服务。

    • 空闲时间上限:会话终止前的笔记本空闲时间上限。允许的范围:10 分钟到 336 小时(14 天)。

    • 会话时长上限:会话终止前的最大生命周期。允许的范围:10 分钟到 336 小时(14 天)。

    • PHS:您可以选择一个可用的 Persistent Spark History Server,以便在会话期间和会话结束后访问会话日志。

    • Spark 属性:为要为无服务器 Spark 会话设置的每个属性点击添加属性。如需查看支持和不支持的 Spark 属性的列表,包括 Spark 运行时、资源和自动扩缩属性,请参阅 Spark 属性

    • 标签:针对要在无服务器 Spark 会话中设置的每个标签,点击添加标签

  4. 依次前往设置 > Dataproc 设置页面,查看您的运行时模板。

    • 您可以从模板的操作菜单中删除模板。
  5. 点击保存

  6. 打开并重新加载 JupyterLab Launcher 页面,以在 JupyterLab Launcher 页面上查看已保存的笔记本模板卡片。

gcloud

  1. 使用运行时模板配置创建 YAML 文件。

    简单的 YAML

    environmentConfig:
      executionConfig:
        networkUri: default
    jupyterSession:
      kernel: PYTHON
      displayName: Team A
    labels:
      purpose: testing
    description: Team A Development Environment
    

    复杂的 YAML

    environmentConfig:
      executionConfig:
        serviceAccount: sa1
        # Choose either networkUri or subnetworkUri
        networkUri: default
        subnetworkUri: subnet
        networkTags:
         - tag1
        kmsKey: key1
        idleTtl: 3600s
        ttl: 14400s
        stagingBucket: staging-bucket
      peripheralsConfig:
        metastoreService: projects/my-project-id/locations/us-central1/services/my-metastore-id
        sparkHistoryServerConfig:
          dataprocCluster: projects/my-project-id/regions/us-central1/clusters/my-cluster-id
    jupyterSession:
      kernel: PYTHON
      displayName: Team A
    labels:
      purpose: testing
    runtimeConfig:
      version: "1.1"
      containerImage: gcr.io/my-project-id/my-image:1.0.1
      properties:
        "p1": "v1"
    description: Team A Development Environment
    

    如果您在准备工作中运行 gcloud init 时配置的区域的 default 网络子网未启用专用 Google 访问通道,请执行以下操作:

    • 为专用 Google 访问通道启用该功能,或
    • 选择另一个具有已启用专用 Google 访问通道的区域子网的网络。 您可以通过 JupyterLab 的设置 > Dataproc 设置页面更改 Dataproc Serverless 使用的区域。
  2. 在本地或 Cloud Shell 中运行以下 gcloud beta dataproc session-templates import 命令,从 YAML 文件创建会话(运行时)模板:

    gcloud beta dataproc session-templates import TEMPLATE_ID \
        --source=YAML_FILE \
        --project=PROJECT_ID \
        --location=REGION
    

启动和管理笔记本

安装 Dataproc JupyterLab 插件后,您可以点击 JupyterLab Launcher 页面上的模板卡片,执行以下操作:

在 Dataproc Serverless 上启动 Jupyter 笔记本

JupyterLab 启动器页面上的 Dataproc Serverless Notebooks 部分会显示与 Dataproc Serverless 运行时模板对应的笔记本模板卡片(请参阅创建 Dataproc Serverless 运行时模板)。

  1. 点击某个卡片可创建 Dataproc Serverless 会话并启动笔记本。会话创建完成且笔记本内核可供使用后,内核状态会从 Unknown 更改为 Idle

  2. 编写和测试笔记本代码。

    1. 将以下 PySpark Pi estimation 代码复制并粘贴到 PySpark 笔记本单元中,然后按 Shift+Enter 运行代码。

      import random
          
      def inside(p):
          x, y = random.random(), random.random()
          return x*x + y*y < 1
          
      count = sc.parallelize(range(0, 10000)) .filter(inside).count()
      print("Pi is roughly %f" % (4.0 * count / 10000))

      笔记本结果:

  3. 创建并使用笔记本后,您可以点击内核标签页中的关闭内核来终止笔记本会话。

    • 如果您未终止会话,Dataproc 会在会话空闲计时器到期时终止会话。您可以在运行时模板配置中配置会话空闲时间。默认会话空闲时间为 1 小时。

在 Dataproc on Compute Engine 集群上启动笔记本

如果您创建了 Dataproc on Compute Engine Jupyter 集群,则 JupyterLab Launcher 页面会包含一个包含预安装的 kernel 卡片的 Dataproc Cluster Notebook 部分。

如需在 Dataproc on Compute Engine 集群上启动 Jupyter 笔记本,请执行以下操作:

  1. 点击 Dataproc 集群笔记本部分中的某个卡片。

  2. 当内核状态从 Unknown 更改为 Idle 时,您就可以开始编写和执行笔记本代码了。

  3. 创建并使用笔记本后,您可以点击内核标签页中的关闭内核来终止笔记本会话。

在 Cloud Storage 中管理输入和输出文件

分析探索性数据和构建机器学习模型通常涉及基于文件的输入和输出。Dataproc Serverless 会访问 Cloud Storage 上的这些文件。

  • 如需访问 Cloud Storage 浏览器,请点击 JupyterLab Launcher 页面边栏中的 Cloud Storage 浏览器图标,然后双击某个文件夹以查看其内容。

  • 您可以点击 Jupyter 支持的文件类型,以打开和修改这些文件。保存对文件的更改后,系统会将其写入 Cloud Storage。

  • 如需创建新的 Cloud Storage 文件夹,请点击“新建文件夹”图标,然后输入文件夹的名称。

  • 如需将文件上传到 Cloud Storage 存储桶或文件夹,请点击“上传”图标,然后选择要上传的文件。

开发 Spark 笔记本代码

安装 Dataproc JupyterLab 插件后,您可以从 JupyterLab Launcher 页面启动 Jupyter 笔记本,以开发应用代码。

PySpark 和 Python 代码开发

Dataproc Serverless 和 Dataproc on Compute Engine 集群支持 PySpark 内核。Dataproc on Compute Engine 还支持 Python 内核。

SQL 代码开发

如需打开 PySpark 笔记本以编写和执行 SQL 代码,请在 JupyterLab Launcher 页面的 Dataproc Serverless NotebooksDataproc Cluster Notebook 部分中,点击 PySpark 内核卡片。

Spark SQL 魔法:由于启动 Dataproc 无服务器笔记本的 PySpark 内核预加载了 Spark SQL 魔法,因此您可以先在单元格的顶部输入 %%sparksql magic,然后在单元格中输入 SQL 语句,而不是使用 spark.sql('SQL STATEMENT').show() 来封装 SQL 语句。

BigQuery SQL:借助 BigQuery Spark 连接器,您的记事本代码可以从 BigQuery 表中加载数据,在 Spark 中执行分析,然后将结果写入 BigQuery 表。

Dataproc Serverless 2.1 运行时包含 BigQuery Spark 连接器。如果您使用 Dataproc Serverless 2.0 或更低版本的运行时启动 Dataproc Serverless 笔记本,则可以通过将以下 Spark 属性添加到 Dataproc Serverless 运行时模板来安装 Spark BigQuery 连接器:

spark.jars: gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.25.2.jar

Scala 代码开发

使用映像版本 2.0 及更高版本、2.1 及更高版本创建的 Compute Engine 集群上的 Dataproc 包含 Apache Toree,这是一个适用于 Jupyter Notebook 平台的 Scala 内核,可提供对 Spark 的交互式访问。

  • 在 JupyterLab Launcher 页面的 Dataproc 集群笔记本部分中,点击 Apache Toree 卡片,打开一个用于 Scala 代码开发的笔记本。

    图 1. JupyterLab 启动器页面中的 Apache Toree 内核卡片。

元数据浏览器

如果 Dataproc Metastore (DPMS) 实例附加到 Dataproc Serverless 运行时模板或 Dataproc on Compute Engine 集群,则打开记事本时,JupyterLab 元数据浏览器中会显示 DPMS 实例架构。DPMS 是 Google Cloud 上全代管式且可横向伸缩的 Hive Metastore (HMS) 服务。

如需在元数据浏览器中查看 HMS 元数据,请执行以下操作:

如需打开 JupyterLab 元数据浏览器,请点击边栏中的相应图标。

您可以在元数据浏览器中搜索数据库、表或列。点击数据库、表或列名称可查看关联的元数据。

部署代码

安装 Dataproc JupyterLab 插件后,您可以使用 JupyterLab 执行以下操作:

  • 在 Dataproc Serverless 基础架构上执行笔记本代码

  • 将批处理作业提交到 Dataproc Serverless 基础架构或 Dataproc on Compute Engine 集群。

在 Dataproc Serverless 上运行笔记本代码

  • 如需在笔记本单元中运行代码,请点击运行或按 Shift-Enter 键。

  • 如需在一个或多个笔记本单元中运行代码,请使用运行菜单。

将批量作业提交到 Dataproc Serverless

  • 在 JupyterLab Launcher 页面的 Dataproc Jobs and Sessions 部分中,点击 Serverless 卡片。

  • 点击批量标签页,然后点击创建批量,并填写批量信息字段。

  • 点击提交以提交作业。

将批量作业提交到 Dataproc on Compute Engine 集群

  • 在 JupyterLab Launcher 页面的 Dataproc 作业和会话部分中,点击 Clusters 卡片。

  • 点击作业标签页,然后点击提交作业

  • 选择一个集群,然后填写作业字段。

  • 点击提交以提交作业。

查看和管理资源

安装 Dataproc JupyterLab 插件后,您可以通过 JupyterLab Launcher 页面上的 Dataproc Jobs and Sessions 部分查看和管理 Dataproc Serverless 和 Dataproc on Compute Engine。

点击 Dataproc Jobs and Sessions 部分,以显示 ClustersServerless 卡片。

如需查看和管理 Dataproc Serverless 会话,请执行以下操作:

  1. 点击无服务器卡片。
  2. 点击会话标签页,然后点击某个会话 ID 以打开会话详情页面,查看会话属性、在日志浏览器中查看 Google Cloud 日志,以及终止会话。 注意:系统会创建一个唯一的 Dataproc Serverless 会话来启动每个 Dataproc Serverless 笔记本。

如需查看和管理 Dataproc Serverless 批处理作业,请执行以下操作:

  1. 点击批处理标签页,查看当前项目和区域中的 Dataproc Serverless 批处理列表。点击批次 ID 可查看批次详情。

如需查看和管理 Dataproc on Compute Engine 集群,请执行以下操作:

  1. 点击集群卡片。选择 Clusters(集群)标签页,以列出当前项目和区域中 Compute Engine 集群上的活跃 Dataproc。您可以点击操作列中的图标来启动、停止或重启集群。点击集群名称以查看集群详情。您可以点击操作列中的图标,以克隆、停止或删除作业。

如需查看和管理 Dataproc on Compute Engine 作业,请执行以下操作:

  1. 点击作业卡片可查看当前项目中的作业列表。点击作业 ID 即可查看作业详情。