Crear flujos de procesamiento

En este documento se describe cómo crear pipelines en BigQuery. Los flujos de procesamiento se basan en Dataform.

Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Roles necesarios para las canalizaciones

    Para obtener los permisos que necesitas para crear canalizaciones, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en el proyecto:

    Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

    También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

    Para obtener más información sobre la gestión de identidades y accesos de Dataform, consulta el artículo sobre cómo controlar el acceso con la gestión de identidades y accesos.

    Roles necesarios para las opciones del cuaderno

    Para obtener los permisos que necesitas para seleccionar una plantilla de tiempo de ejecución en las opciones del cuaderno, pídele a tu administrador que te conceda el rol de gestión de identidades y accesos de usuario del tiempo de ejecución del cuaderno (roles/aiplatform.notebookRuntimeUser) en el proyecto. Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

    También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

    Si no tienes este rol, puedes seleccionar la especificación de tiempo de ejecución del cuaderno predeterminada.

    Definir la región predeterminada de los recursos de código

    Si es la primera vez que creas un recurso de código, debes definir la región predeterminada para los recursos de código. No puedes cambiar la región de un recurso de código después de crearlo.

    Todos los recursos de código de BigQuery Studio usan la misma región predeterminada. Para definir la región predeterminada de los recursos de código, sigue estos pasos:

    1. Ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, busca el proyecto en el que hayas habilitado los recursos de código.

    3. Haz clic en Ver acciones junto al proyecto y, a continuación, en Cambiar mi región de código predeterminada.

    4. En Región, seleccione la región que quiera usar para los recursos de código.

    5. Haz clic en Seleccionar.

    Para ver una lista de las regiones admitidas, consulta Ubicaciones de BigQuery Studio.

    Crear un flujo de procesamiento

    Para crear una canalización, sigue estos pasos:

    1. Ve a la página BigQuery.

      Ir a BigQuery

    2. En la barra de pestañas del panel del editor, haz clic en la flecha situada junto al signo + y, a continuación, haz clic en Pipeline.

    3. Opcional: Para cambiar el nombre de la canalización, haz clic en el nombre de la canalización y escribe el nuevo nombre.

    4. Haz clic en Empezar y, a continuación, ve a la pestaña Configuración.

    5. En la sección Authentication (Autenticación), elige si quieres autorizar la canalización con las credenciales de usuario de tu cuenta de Google o con una cuenta de servicio.

      • Para usar las credenciales de usuario de tu cuenta de Google (Vista previa), selecciona Ejecutar con mis credenciales de usuario.
      • Para usar una cuenta de servicio, selecciona Ejecutar con la cuenta de servicio seleccionada y, a continuación, elige una cuenta de servicio.
    6. En la sección Ubicación de procesamiento, selecciona una ubicación de procesamiento para la canalización.

      • Para habilitar la selección automática de una ubicación, selecciona Selección automática de la ubicación. Esta opción selecciona una ubicación en función de los conjuntos de datos a los que se hace referencia en la solicitud. El proceso de selección es el siguiente:

        • Si tu consulta hace referencia a conjuntos de datos de la misma ubicación, BigQuery usa esa ubicación.
        • Si tu consulta hace referencia a conjuntos de datos de dos o más ubicaciones diferentes, se producirá un error. Para obtener más información sobre esta limitación, consulta el artículo Réplica de conjuntos de datos entre regiones.
        • Si tu consulta no hace referencia a ningún conjunto de datos, BigQuery usará de forma predeterminada la multirregión US.
      • Para elegir una región específica, selecciona Región y, a continuación, elige una región en el menú Región. También puedes usar la variable de sistema @@location en tu consulta. Para obtener más información, consulta Especificar ubicaciones.

      • Para elegir una multirregión, selecciona Multirregión y, a continuación, elige una multirregión en el menú Multirregión.

      La ubicación de procesamiento de la canalización no tiene por qué coincidir con la ubicación de almacenamiento predeterminada de los recursos de código.

    Opciones del cuaderno

    1. Si tienes previsto añadir un cuaderno a tu flujo de trabajo, haz lo siguiente en la sección Opciones del cuaderno:

      1. En el campo Plantilla de tiempo de ejecución, acepta el tiempo de ejecución predeterminado del cuaderno o busca y selecciona un tiempo de ejecución.

      2. En el campo Segmento de Cloud Storage, haz clic en Examinar y selecciona o crea un segmento de Cloud Storage para almacenar la salida de los cuadernos de tu canalización.

      3. Sigue los pasos de Añadir un principal a una política a nivel de segmento para añadir tu cuenta de servicio de Dataform personalizada como principal al segmento de Cloud Storage que quieras usar para almacenar la salida de las ejecuciones de la canalización programadas y asigna el rol de administrador de almacenamiento (roles/storage.admin) a este principal.

        Se debe conceder el rol de gestión de identidades y accesos Administrador de Storage a la cuenta de servicio de Dataform personalizada seleccionada en el bucket seleccionado.

    Añadir una tarea de la canalización

    Para añadir una tarea a una fase, sigue estos pasos:

    1. En la consola de Google Cloud , ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

    3. Para añadir un recurso de código, selecciona una de las siguientes opciones:

      Consulta de SQL

      1. Haz clic en Añadir tarea y, a continuación, selecciona Consulta. Puede crear una consulta o importar una que ya tenga.

      2. Opcional: En el panel Detalles de la tarea de consulta, en el menú Ejecutar después, selecciona una tarea que preceda a tu consulta.

      Crear una consulta

      1. Haz clic en el menú de flecha situado junto a Editar consulta y selecciona En contexto o En una pestaña nueva.

      2. Busca una consulta.

      3. Selecciona un nombre de consulta y, a continuación, pulsa Intro.

      4. Haz clic en Guardar.

      5. Opcional: Para cambiar el nombre de la consulta, haz clic en el nombre de la consulta en el panel de la canalización, haz clic en Editar consulta, haz clic en el nombre de la consulta en la parte superior de la pantalla y, a continuación, escribe un nombre nuevo.

      Importar una consulta

      1. Haz clic en el menú de flecha situado junto a Editar consulta y haz clic en Importar una copia.

      2. Busca una consulta que quieras importar o selecciona una en el panel de búsqueda. Cuando importas una consulta, la original no cambia porque el archivo de origen de la consulta se copia en la canalización.

      3. Haz clic en Editar para abrir la consulta importada.

      4. Haz clic en Guardar.

      Cuaderno

      1. Haz clic en Añadir tarea y, a continuación, selecciona Cuaderno. Puedes crear un cuaderno o importar uno que ya tengas. Para cambiar la configuración de las plantillas de tiempo de ejecución de los cuadernos, consulta Opciones de los cuadernos.

      2. Opcional: En el panel Detalles de la tarea del cuaderno, en el menú Ejecutar después, selecciona una tarea que se realice antes del cuaderno.

      Crear un cuaderno

      1. Haz clic en el menú de flecha junto a Editar cuaderno y selecciona En contexto o En una pestaña nueva.

      2. Busca un cuaderno.

      3. Selecciona el nombre de un cuaderno y, a continuación, pulsa Intro.

      4. Haz clic en Guardar.

      5. Opcional: Para cambiar el nombre del cuaderno, haz clic en el nombre del cuaderno en el panel de la canalización, haz clic en Editar cuaderno, haz clic en el nombre del cuaderno que aparece en la parte superior de la pantalla y, a continuación, escribe un nombre nuevo.

      Importar un cuaderno

      1. Haz clic en el menú de flecha situado junto a Editar cuaderno y haz clic en Importar una copia.

      2. Busca un cuaderno que quieras importar o selecciona uno en el panel de búsqueda. Cuando importas un cuaderno, el original no cambia, ya que el archivo de origen del cuaderno se copia en la canalización.

      3. Para abrir el cuaderno importado, haz clic en Editar.

      4. Haz clic en Guardar.

      Preparación de datos

      1. Haz clic en Añadir tarea y, a continuación, selecciona Preparación de datos. Puede crear una preparación de datos o importar una que ya tenga.

      2. Opcional: En el panel Detalles de la tarea de preparación de datos, en el menú Ejecutar después, selecciona una tarea que se realice antes de la preparación de datos.

      Crear una preparación de datos

      1. Haz clic en el menú de flecha situado junto a Editar preparación de datos y selecciona En contexto o En una pestaña nueva.

      2. Busca una preparación de datos.

      3. Selecciona un nombre de preparación de datos y pulsa Intro.

      4. Haz clic en Guardar.

      5. Opcional: Para cambiar el nombre de la preparación de datos, haga clic en el nombre de la preparación de datos en el panel de la canalización, haga clic en Editar preparación de datos, haga clic en el nombre situado en la parte superior de la pantalla e introduzca un nombre nuevo.

      Importar una preparación de datos

      1. Haz clic en el menú desplegable flecha situado junto a Editar preparación de datos y haz clic en Importar una copia.

      2. Busque una preparación de datos que ya tenga para importarla o seleccione una en el panel de búsqueda. Cuando importas una preparación de datos, el original no cambia, ya que el archivo de origen de la preparación de datos se copia en la canalización.

      3. Para abrir la preparación de datos importada, haz clic en Editar.

      4. Haz clic en Guardar.

      Tabla

      1. Haz clic en Añadir tarea y, a continuación, selecciona Tabla.

      2. Escribe un nombre para la tabla.

      3. En el panel Detalles de la tarea de la tabla, haz clic en Abrir para abrir la tarea.

      4. Configura la tarea con los ajustes de Detalles > Configuración o del bloque config del editor de código de la tabla.

        Para cambiar los metadatos, usa la pestaña Configuración. Esta pestaña le permite editar un valor específico del bloque config en el editor de código, como una cadena o una matriz, que tiene el formato de un objeto JavaScript. Esta pestaña le ayuda a evitar errores de sintaxis y a verificar que sus ajustes son correctos.

        Opcional: En el menú Ejecutar después, selecciona una tarea que se realice antes de la tabla.

        También puedes definir los metadatos de la tarea de tu canalización en el bloque config del editor. Para obtener más información, consulta el artículo Crear tablas.

        El editor valida el código y muestra el estado de la validación.

      5. En Detalles > Consultas compiladas, consulta el código SQL compilado a partir del código SQLX.

      6. Haz clic en Ejecutar para ejecutar el SQL en tu canalización.

      7. En Resultados de la consulta, inspecciona la vista previa de los datos.

      Ver

      1. Haz clic en Añadir tarea y, a continuación, en Ver.

      2. Introduce un nombre para la vista.

      3. En el panel Ver detalles de la tarea, haz clic en Abrir para abrir la tarea.

      4. Configura la tarea con los ajustes de Detalles > Configuración o del bloque config del editor de código de la vista.

        Para cambiar los metadatos, usa la pestaña Configuración. Esta pestaña le permite editar un valor específico del bloque config en el editor de código, como una cadena o una matriz, que tiene el formato de un objeto JavaScript. Esta pestaña le ayuda a evitar errores de sintaxis y a verificar que sus ajustes son correctos.

        Opcional: En el menú Ejecutar después, selecciona una tarea que preceda a tu vista.

        También puedes definir los metadatos de la tarea de tu canalización en el bloque config del editor. Para obtener más información, consulta Crear una vista con Dataform Core.

        El editor valida el código y muestra el estado de la validación.

      5. En Detalles > Consultas compiladas, consulta el código SQL compilado a partir del código SQLX.

      6. Haz clic en Ejecutar para ejecutar el SQL en tu canalización.

      7. En Resultados de la consulta, inspecciona la vista previa de los datos.

    Editar una tarea de flujo de trabajo

    Para editar una tarea de una canalización, sigue estos pasos:

    1. En la Google Cloud consola, ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

    3. Haz clic en la tarea seleccionada.

    4. Para cambiar la tarea anterior, en el menú Ejecutar después de, selecciona una tarea que preceda a la tuya.

    5. Para editar el contenido de la tarea seleccionada, haz clic en Editar.

    6. En la nueva pestaña que se abre, edita el contenido de la tarea y guarda los cambios.

    Eliminar una tarea de una canalización

    Para eliminar una tarea de una canalización, sigue estos pasos:

    1. En la consola de Google Cloud , ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

    3. Haz clic en la tarea seleccionada.

    4. En el panel Detalles de la tarea, haz clic en el icono EliminarEliminar.

    Compartir una canalización

    Para compartir una canalización, sigue estos pasos:

    1. En la consola de Google Cloud , ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

    3. Haz clic en Compartir y, a continuación, selecciona Gestionar permisos.

    4. Haz clic en Añadir usuario o grupo.

    5. En el campo Nuevos principales, introduce el nombre de al menos un usuario o grupo.

    6. En Asignar roles, selecciona un rol.

    7. Haz clic en Guardar.

    1. En la consola de Google Cloud , ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

    3. Haz clic en Compartir y, a continuación, selecciona Compartir enlace. La URL de tu canalización se copia en el portapapeles de tu ordenador.

    Ejecutar un flujo de procesamiento

    Para ejecutar manualmente la versión actual de una canalización, sigue estos pasos:

    1. En la consola de Google Cloud , ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

    3. Haz clic en Ejecutar. Si has seleccionado Ejecutar con mis credenciales de usuario para la autenticación, debes autorizar tu cuenta de Google (Vista previa).

    4. Opcional: Para inspeccionar la ejecución, consulta las ejecuciones manuales anteriores.

    Autorizar tu cuenta de Google

    Para autenticar el recurso con las credenciales de usuario de tu cuenta de Google, debes conceder manualmente permiso a las canalizaciones de BigQuery para que obtengan el token de acceso de tu cuenta de Google y accedan a los datos de origen en tu nombre. Puedes conceder la aprobación manual con la interfaz del cuadro de diálogo de OAuth.

    Solo tienes que dar permiso a las canalizaciones de BigQuery una vez.

    Para revocar el permiso que has concedido, sigue estos pasos:

    1. Ve a la página de tu cuenta de Google.
    2. Haz clic en BigQuery Pipelines.
    3. Haz clic en Quitar acceso.

    Si tu canalización contiene un cuaderno, también debes conceder manualmente permiso a Colab Enterprise para que obtenga el token de acceso de tu cuenta de Google y acceda a los datos de origen en tu nombre. Solo tienes que dar permiso una vez. Puedes revocar este permiso en la página de la cuenta de Google.

    Siguientes pasos