このページは Cloud Translation API によって翻訳されました。

BigQuery Studio ノートブックで PySpark コードを実行する

このドキュメントでは、BigQuery Python ノートブックで PySpark コードを実行する方法について説明します。

始める前に

Google Cloud プロジェクトと Cloud Storage バケットをまだ作成していない場合は、作成します。

プロジェクトを設定する
1. 使用できる Cloud Storage バケットがない場合は、プロジェクトに Cloud Storage バケットを作成します。
2. ノートブックを設定する
  - ノートブック認証情報: デフォルトでは、ノートブックセッションでは、ユーザー認証情報を使用します。または、セッションサービスアカウントの認証情報を使用することもできます。
    - ユーザー認証情報: ユーザーアカウントには、次の Identity and Access Management ロールが必要です。
      - Dataproc 編集者（roles/dataproc.editor ロール）
      - BigQuery Studio ユーザー（roles/bigquery.studioUser ロール）
      - セッションサービスアカウントに対するサービスアカウントユーザー（roles/iam.serviceAccountUser）ロール。このロールには、サービスアカウントの権限を借用するために必要な iam.serviceAccounts.actAs 権限が含まれています。
    - サービスアカウントの認証情報: ノートブックセッションでユーザー認証情報の代わりにサービスアカウントの認証情報を指定する場合は、セッションサービスアカウントに次のロールが必要です。
      - Dataproc ワーカー（roles/dataproc.worker ロール）
  - ノートブックのランタイム: 別のランタイムを選択しない限り、ノートブックはデフォルトの Vertex AI ランタイムを使用します。独自のランタイムを定義する場合は、 Google Cloud コンソールの [ランタイム] ページからランタイムを作成します。注: NumPy ライブラリを使用する場合は、Spark 3.5 でサポートされている NumPy バージョン 1.26 をノートブックランタイムで使用してください。

BigQuery Studio ノートブックで PySpark コードを実行する

始める前に

料金

BigQuery Studio Python ノートブックを開く

BigQuery Studio ノートブックで Spark セッションを作成する

1 回のみ

テンプレート化された Spark セッション

BigQuery Studio ノートブックで PySpark コードを記述して実行する

BigQuery Studio ノートブックの PySpark の例

ワード数

Iceberg テーブル

PySpark コードを実行して、BigLake metastore メタデータを含む Iceberg テーブルを作成する

BigQuery でテーブルの詳細を表示する

その他の例

Gemini Code Assist を使用して Spark コードを記述する

Gemini Code Assist のコード生成に関するヒント

Spark セッションを終了する

BigQuery Studio ノートブックコードをオーケストレートする

Google Cloud コンソールからノートブックコードのスケジュールを設定する

ノートブックコードをバッチワークロードとして実行する

ノートブックエラーのトラブルシューティング

既知の問題と解決策

次のステップ

BigQuery Studio ノートブックで PySpark コードを実行する

始める前に

料金

BigQuery Studio Python ノートブックを開く

BigQuery Studio ノートブックで Spark セッションを作成する

1 回のみ

テンプレート化された Spark セッション

BigQuery Studio ノートブックで PySpark コードを記述して実行する

BigQuery Studio ノートブックの PySpark の例

ワード数

Iceberg テーブル

PySpark コードを実行して、BigLake metastore メタデータを含む Iceberg テーブルを作成する

BigQuery でテーブルの詳細を表示する

その他の例

Gemini Code Assist を使用して Spark コードを記述する

Gemini Code Assist のコード生成に関するヒント

Spark セッションを終了する

BigQuery Studio ノートブック コードをオーケストレートする

Google Cloud コンソールからノートブック コードのスケジュールを設定する

ノートブック コードをバッチ ワークロードとして実行する

ノートブック エラーのトラブルシューティング

既知の問題と解決策

次のステップ

BigQuery Studio ノートブックコードをオーケストレートする

Google Cloud コンソールからノートブックコードのスケジュールを設定する

ノートブックコードをバッチワークロードとして実行する

ノートブックエラーのトラブルシューティング