Esta página foi traduzida pela API Cloud Translation.

Execute código PySpark em blocos de notas do BigQuery Studio

Este documento mostra como executar código PySpark num bloco de notas Python do BigQuery.

Antes de começar

Se ainda não o fez, crie um Google Cloud projeto e um contentor do Cloud Storage.

Configure o seu projeto
1. Crie um contentor do Cloud Storage no seu projeto se não tiver um que possa usar.
2. Configure o seu notebook
  - Credenciais do bloco de notas: por predefinição, a sessão do bloco de notas usa as suas credenciais de utilizador. Em alternativa, pode usar credenciais da conta de serviço da sessão.
    - Credenciais do utilizador: a sua conta de utilizador tem de ter as seguintes funções de gestão de identidades e acessos:
      - Editor do Dataproc (função roles/dataproc.editor)
      - Utilizador do BigQuery Studio (função roles/bigquery.studioUser)
      - Função de utilizador da conta de serviço (roles/iam.serviceAccountUser) na conta de serviço da sessão. Esta função contém a autorização iam.serviceAccounts.actAs necessária para usar a identidade da conta de serviço.
    - Credenciais da conta de serviço: se quiser especificar credenciais da conta de serviço em vez de credenciais do utilizador para a sessão do bloco de notas, a conta de serviço da sessão tem de ter a seguinte função:
      - Dataproc Worker (função roles/dataproc.worker)
  - Tempo de execução do bloco de notas: o seu bloco de notas usa um tempo de execução do Vertex AI predefinido, a menos que selecione um tempo de execução diferente. Se quiser definir o seu próprio tempo de execução, crie o tempo de execução a partir da página Tempos de execução na Google Cloud consola. Tenha em atenção que, quando usar a biblioteca NumPy, use a versão 1.26 do NumPy, que é suportada pelo Spark 3.5, no tempo de execução do bloco de notas.

Execute código PySpark em blocos de notas do BigQuery Studio

Antes de começar

Preços

Abra um notebook Python do BigQuery Studio

Crie uma sessão do Spark num notebook do BigQuery Studio

Sessão única

Sessão do Spark com modelo

Escreva e execute código PySpark no seu bloco de notas do BigQuery Studio

Exemplos de PySpark do bloco de notas do BigQuery Studio

Contagem de palavras

Tabela de icebergues

Execute código PySpark para criar uma tabela Iceberg com metadados do metastore do BigLake

Veja os detalhes da tabela no BigQuery

Outros exemplos

Escreva código Spark com o Gemini Code Assist

Dicas para a geração de código do Gemini Code Assist

Termine a sessão do Spark

Orquestre o código do bloco de notas do BigQuery Studio

Agende código do bloco de notas a partir da Google Cloud consola

Execute código de bloco de notas como uma carga de trabalho em lote

Resolva problemas de erros do bloco de notas

Problemas conhecidos e soluções

O que se segue?