本頁面由 Cloud Translation API 翻譯而成。

在 BigQuery Studio 筆記本中執行 PySpark 程式碼

本文說明如何在 BigQuery Python 筆記本中執行 PySpark 程式碼。

事前準備

請建立 Google Cloud 專案和 Cloud Storage bucket。

設定專案
1. 如果沒有可用的 Cloud Storage bucket，請在專案中建立一個。
2. 設定筆記本
  - 筆記本憑證：根據預設，筆記本工作階段會使用您的使用者憑證。或者，也可以使用工作階段服務帳戶憑證。
    - 使用者憑證：您的使用者帳戶必須具備下列 Identity and Access Management 角色：
      - Dataproc 編輯者 (roles/dataproc.editor 角色)
      - BigQuery Studio 使用者 (roles/bigquery.studioUser 角色)
      - 工作階段服務帳戶的服務帳戶使用者 (roles/iam.serviceAccountUser) 角色。這個角色包含模擬服務帳戶所需的 iam.serviceAccounts.actAs 權限。
    - 服務帳戶憑證：如要為筆記本工作階段指定服務帳戶憑證，而非使用者憑證，工作階段服務帳戶必須具備下列角色：
      - Dataproc Worker (roles/dataproc.worker 角色)
  - 筆記本執行階段：除非您選取其他執行階段，否則筆記本會使用預設的 Vertex AI 執行階段。如要自行定義執行階段，請在 Google Cloud 控制台的「執行階段」頁面建立執行階段。注意，使用 NumPy 程式庫時，請在筆記本執行階段使用 Spark 3.5 支援的 NumPy 1.26 版。