Cette page a été traduite par l'API Cloud Translation.

Exécuter du code PySpark dans les notebooks BigQuery Studio

Ce document vous explique comment exécuter du code PySpark dans un notebook Python BigQuery.

Avant de commencer

Si ce n'est pas déjà fait, créez un projet Google Cloud et un bucket Cloud Storage.

Configurer votre projet
1. Créez un bucket Cloud Storage dans votre projet si vous n'en avez pas déjà un.
2. Configurer votre notebook
  - Identifiants du notebook : par défaut, votre session de notebook utilise vos identifiants utilisateur. Il peut également utiliser les identifiants du compte de service de session.
    - Identifiants utilisateur : votre compte utilisateur doit disposer des rôles Identity and Access Management suivants :
      - Éditeur Dataproc (rôle roles/dataproc.editor)
      - Utilisateur BigQuery Studio (rôle roles/bigquery.studioUser)
      - Le rôle Utilisateur du compte de service (roles/iam.serviceAccountUser) sur le compte de service de session. Ce rôle contient l'autorisation iam.serviceAccounts.actAs requise pour emprunter l'identité du compte de service.
    - Identifiants du compte de service : si vous souhaitez spécifier des identifiants de compte de service au lieu d'identifiants utilisateur pour votre session de notebook, le compte de service de session doit disposer du rôle suivant :
      - Nœud de calcul Dataproc (rôle roles/dataproc.worker)
  - Environnement d'exécution du notebook : votre notebook utilise un environnement d'exécution Vertex AI par défaut, sauf si vous en sélectionnez un autre. Si vous souhaitez définir votre propre environnement d'exécution, créez-le sur la page Environnements d'exécution de la console Google Cloud . Remarque : Lorsque vous utilisez la bibliothèque NumPy, utilisez la version 1.26 de NumPy, qui est compatible avec Spark 3.5, dans l'environnement d'exécution du notebook.

Exécuter du code PySpark dans les notebooks BigQuery Studio

Avant de commencer

Tarifs

Ouvrir un notebook Python BigQuery Studio

Créer une session Spark dans un notebook BigQuery Studio

Session unique

Session Spark basée sur un modèle

Écrire et exécuter du code PySpark dans votre notebook BigQuery Studio

Exemples PySpark de notebooks BigQuery Studio

Nombre de mots

Table Iceberg

Exécuter du code PySpark pour créer une table Iceberg avec des métadonnées BigLake Metastore

Afficher les détails d'une table dans BigQuery

Autres exemples

Écrire du code Spark avec Gemini Code Assist

Conseils pour générer du code avec Gemini Code Assist

Mettre fin à la session Spark

Orchestrer le code de notebook BigQuery Studio

Programmer du code de notebook depuis la console Google Cloud

Exécuter du code de notebook en tant que charge de travail par lot

Résoudre les problèmes liés aux notebooks

Problèmes connus et solutions

Étapes suivantes