Esta página se ha traducido con Cloud Translation API.

Ejecutar código de PySpark en cuadernos de BigQuery Studio

En este documento se explica cómo ejecutar código de PySpark en un cuaderno de Python de BigQuery.

Antes de empezar

Si aún no lo has hecho, crea un Google Cloud proyecto y un contenedor de Cloud Storage.

Configurar un proyecto
1. Crea un segmento de Cloud Storage en tu proyecto si no tienes ninguno que puedas usar.
2. Configurar un cuaderno
  - Credenciales del cuaderno: de forma predeterminada, tu sesión del cuaderno usa tus credenciales de usuario. También puede usar las credenciales de la cuenta de servicio de sesión.
    - Credenciales de usuario: tu cuenta de usuario debe tener los siguientes roles de Gestión de Identidades y Accesos:
      - Editor de Dataproc (rol roles/dataproc.editor)
      - Usuario de BigQuery Studio (rol roles/bigquery.studioUser)
      - Rol Usuario de cuenta de servicio (roles/iam.serviceAccountUser) en la cuenta de servicio de sesión. Este rol contiene el permiso iam.serviceAccounts.actAs necesario para suplantar la identidad de la cuenta de servicio.
    - Credenciales de cuenta de servicio: si quieres especificar las credenciales de una cuenta de servicio en lugar de las de un usuario para tu sesión de cuaderno, la cuenta de servicio de la sesión debe tener el siguiente rol:
      - Trabajador de Dataproc (rol roles/dataproc.worker)
  - Tiempo de ejecución del cuaderno: el cuaderno usa un tiempo de ejecución predeterminado de Vertex AI, a menos que selecciones otro. Si quieres definir tu propio tiempo de ejecución, créalo en la página Tiempos de ejecución de la consola Google Cloud . Nota: Cuando uses la biblioteca NumPy, usa la versión 1.26 de NumPy, que es compatible con Spark 3.5, en el tiempo de ejecución del cuaderno.

Ejecutar código de PySpark en cuadernos de BigQuery Studio

Antes de empezar

Precios

Abrir un cuaderno de Python de BigQuery Studio

Crear una sesión de Spark en un cuaderno de BigQuery Studio

Sesión única

Sesión de Spark con plantilla

Escribir y ejecutar código de PySpark en un cuaderno de BigQuery Studio

Ejemplos de PySpark en cuadernos de BigQuery Studio

Recuento de palabras

Mesa Iceberg

Ejecutar código de PySpark para crear una tabla de Iceberg con metadatos de BigLake Metastore

Ver los detalles de una tabla en BigQuery

Otros ejemplos

Escribir código de Spark con Gemini Code Assist

Consejos para generar código con Gemini Code Assist

Finalizar la sesión de Spark

Orquestar código de cuadernos de BigQuery Studio

Programar código de cuaderno desde la consola de Google Cloud

Ejecutar código de cuaderno como una carga de trabajo por lotes

Solucionar errores de cuadernos

Problemas conocidos y soluciones

Siguientes pasos