Gestionar flujos de trabajo

En este documento se describe cómo gestionar pipelines de BigQuery, incluido cómo programarlos y eliminarlos.

En este documento también se describe cómo ver y gestionar los metadatos de las canalizaciones en Dataplex Universal Catalog.

Los flujos de trabajo se basan en Dataform.

Antes de empezar

  1. Crea una canalización de BigQuery.
  2. Para gestionar los metadatos de la canalización en Dataplex Universal Catalog, asegúrate de que la API Dataplex esté habilitada en tu proyecto de Google Cloud .

Roles obligatorios

Para obtener los permisos que necesitas para gestionar las canalizaciones, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

  • Para eliminar flujos de procesamiento, sigue estos pasos: Administrador de Dataform (roles/dataform.Admin) en el flujo de procesamiento
  • Para ver y ejecutar las canalizaciones, sigue estos pasos: Lector de Dataform (roles/dataform.Viewer) en el proyecto

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Para gestionar los metadatos de las canalizaciones en Dataplex Universal Catalog, asegúrate de tener los roles de Dataplex Universal Catalog necesarios.

Para obtener más información sobre la gestión de identidades y accesos de Dataform, consulta el artículo sobre cómo controlar el acceso con la gestión de identidades y accesos.

Ver todas las canalizaciones

Para ver una lista de todas las canalizaciones de tu proyecto, haz lo siguiente:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, haz clic en . Despliega Pipelines.

Ver ejecuciones manuales anteriores

Para ver las ejecuciones manuales anteriores de una canalización seleccionada, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Ejecuciones.

  4. Opcional: Para actualizar la lista de ejecuciones anteriores, haz clic en Actualizar.

Configurar alertas de ejecuciones de flujos de trabajo fallidas

Cada canalización tiene un ID de repositorio de Dataform correspondiente. Cada ejecución de un flujo de procesamiento de BigQuery se registra en Cloud Logging con el ID del repositorio de Dataform correspondiente. Puedes usar Cloud Monitoring para observar las tendencias de los registros de Cloud Logging de las ejecuciones de la canalización de BigQuery y para enviarte notificaciones cuando se produzcan las condiciones que describas.

Para recibir alertas cuando falle una ejecución de una canalización de BigQuery, puedes crear una política de alertas basada en registros para el ID del repositorio de Dataform correspondiente. Para obtener instrucciones, consulta Configurar alertas de invocaciones de flujo de trabajo fallidas.

Para encontrar el ID del repositorio de Dataform de tu canalización, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines (Pipelines) y, a continuación, selecciona una canalización.

  3. Haz clic en Settings (Configuración).

    El ID del repositorio de Dataform de tu canal se muestra en la parte inferior de la pestaña Configuración.

Eliminar una canalización

Para eliminar una canalización de forma permanente, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, despliega tu proyecto y la carpeta Pipelines. Busca la canalización que quieras eliminar.

  3. Haz clic en Ver acciones junto a la canalización y, a continuación, en Eliminar.

  4. Haz clic en Eliminar.

Gestionar metadatos en Dataplex Universal Catalog

Dataplex Universal Catalog te permite almacenar y gestionar metadatos de canalizaciones. Las canalizaciones están disponibles en Dataplex Universal Catalog de forma predeterminada, sin necesidad de configuración adicional.

Puedes usar Dataplex Universal Catalog para gestionar las canalizaciones en todas las ubicaciones de canalizaciones. La gestión de las canalizaciones en Dataplex Universal Catalog está sujeta a las cuotas y los límites de Dataplex Universal Catalog y a los precios de Dataplex Universal Catalog.

Dataplex Universal Catalog obtiene automáticamente los siguientes metadatos de las canalizaciones:

  • Nombre del recurso de datos
  • Recurso de datos superior
  • Ubicación del recurso de datos
  • Tipo de recurso de datos
  • Proyecto Google Cloud correspondiente

Dataplex Universal Catalog registra las canalizaciones como entradas con los siguientes valores de entrada:

Grupo de entradas del sistema
El grupo de entradas del sistema de las canalizaciones es @dataform. Para ver los detalles de las entradas de la canalización en Dataplex Universal Catalog, debes ver el grupo de entradas del sistema dataform. Para obtener instrucciones sobre cómo ver una lista de todas las entradas de un grupo de entradas, consulta Ver los detalles de un grupo de entradas en la documentación de Dataplex Universal Catalog.
Tipo de entrada del sistema
El tipo de entrada del sistema de las canalizaciones es dataform-code-asset. Para ver los detalles de las canalizaciones, debe consultar el tipo de entrada del sistema dataform-code-asset, filtrar los resultados con un filtro basado en aspectos y definir el campo type del aspecto dataform-code-asset como WORKFLOW. A continuación, selecciona una entrada de la canalización seleccionada. Para obtener instrucciones sobre cómo ver los detalles de un tipo de entrada seleccionado, consulta el artículo Ver los detalles de un tipo de entrada de la documentación de Universal Catalog de Dataplex. Para obtener instrucciones sobre cómo ver los detalles de una entrada seleccionada, consulta la sección Ver los detalles de una entrada de la documentación de Dataplex Universal Catalog.
Tipo de aspecto del sistema
El tipo de aspecto del sistema de las tuberías es dataform-code-asset. Para proporcionar contexto adicional a las canalizaciones de Dataplex Universal Catalog anotando las entradas de canalizaciones de datos con aspectos, consulta el tipo de aspecto dataform-code-asset, filtra los resultados con un filtro basado en aspectos y define el campo type del aspecto dataform-code-asset como WORKFLOW. Para obtener instrucciones sobre cómo anotar entradas con aspectos, consulta Gestionar aspectos y enriquecer metadatos en la documentación de Dataplex Universal Catalog.
Tipo
El tipo de los lienzos de datos es WORKFLOW. Este tipo te permite filtrar las canalizaciones en el dataform-code-asset tipo de entrada del sistema y el tipo de aspecto dataform-code-asset mediante la aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW consulta en un filtro basado en aspectos.

Para obtener instrucciones sobre cómo buscar recursos en Dataplex Universal Catalog, consulta el artículo Buscar recursos de datos en Dataplex Universal Catalog de la documentación de Dataplex Universal Catalog.

Siguientes pasos