Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui codice PySpark nei notebook BigQuery Studio

Questo documento mostra come eseguire il codice PySpark in un notebook Python BigQuery.

Prima di iniziare

Se non l'hai ancora fatto, crea un progetto e un bucket Cloud Storage. Google Cloud

Configurare il progetto
1. Crea un bucket Cloud Storage nel tuo progetto se non ne hai uno da utilizzare.
2. Configurare il notebook
  - Credenziali del notebook: per impostazione predefinita, la sessione del notebook utilizza le tue credenziali utente. In alternativa, può utilizzare le credenziali dell'account di servizio della sessione.
    - Credenziali utente: il tuo account utente deve avere i seguenti ruoli Identity and Access Management:
      - Editor Dataproc (ruolo roles/dataproc.editor)
      - Utente BigQuery Studio (ruolo roles/bigquery.studioUser)
      - Ruolo Utente service account (roles/iam.serviceAccountUser) nel service account di sessione. Questo ruolo contiene l'autorizzazione iam.serviceAccounts.actAs richiesta per rappresentare l'account di servizio.
    - Credenziali del service account: se vuoi specificare le credenziali del account di servizio anziché le credenziali utente per la sessione del notebook, il service account per la sessione deve avere il seguente ruolo:
      - Dataproc Worker (ruolo roles/dataproc.worker)
  - Runtime del notebook: il notebook utilizza un runtime Vertex AI predefinito a meno che tu non ne selezioni uno diverso. Se vuoi definire il tuo runtime, crealo dalla pagina Runtime nella console Google Cloud . Nota: quando utilizzi la libreria NumPy, utilizza la versione 1.26 di NumPy, supportata da Spark 3.5, nel runtime del notebook.