Monitorizar el linaje de datos de una tabla de BigQuery

El linaje de los datos te permite monitorizar cómo se mueven los datos por tus sistemas: de dónde proceden, a dónde se envían y qué transformaciones se les aplican.

En esta guía de inicio rápido se explica cómo empezar a monitorizar el linaje de datos de los trabajos de copia y consulta de BigQuery:

  1. Copia dos tablas de un conjunto de datos new_york_taxi_trips público.

  2. Combina el número total de viajes en taxi de ambas tablas en una nueva.

  3. Ver un gráfico de visualización del linaje de las tres operaciones.

Antes de empezar

Configura tu proyecto:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Roles obligatorios

    Para obtener los permisos que necesitas para ver los gráficos de visualización del linaje, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

    Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

    También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

    Añadir un conjunto de datos público a un proyecto

    1. En la Google Cloud consola, ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, haz clic en Añadir datos.

    3. En el panel Añadir datos, selecciona Conjuntos de datos públicos.

    4. En el panel Marketplace (Mercado), busca NYC TLC Trips y haz clic en el resultado NYC TLC Trips (Viajes de la Comisión de Taxis y Limusinas de Nueva York).

    5. Haz clic en Ver conjunto de datos.

    De esta forma, el proyecto del conjunto de datos públicos se añade como referencia que puedes ver en el panel Explorador. En el panel de detalles se muestra la información del conjunto de datos, como el ID del conjunto de datos, la ubicación de los datos y la fecha de la última modificación.

    Crear un conjunto de datos en un proyecto

    1. En el panel Explorador, selecciona el proyecto en el que quieras crear el conjunto de datos.

    2. Haz clic en Acciones y, a continuación, en Crear conjunto de datos.

    3. En la página Crear conjunto de datos, en el campo ID del conjunto de datos, introduce lo siguiente: data_lineage_demo. No modifiques los valores predeterminados del resto de campos.

    4. Haz clic en Crear conjunto de datos.

    5. En el panel Explorador, haz clic en el data_lineage_demo que acabas de añadir.

    En el panel de detalles se muestra la información del conjunto de datos.

    Copiar dos tablas de acceso público en tu conjunto de datos

    1. Abre un editor de consultas: en el panel de detalles, junto a la pestaña llamada data_lineage_demo, haz clic en (Redactar nueva consulta). En este paso se crea una pestaña llamada Untitled.

    2. En el editor de consultas, copia la primera tabla introduciendo la siguiente consulta. Sustituye PROJECT_ID por el identificador de tu proyecto.

      CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
      COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
      
    3. Haz clic en Ejecutar. En este paso se crea la primera tabla, llamada nyc_green_trips_2021.

    4. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso se muestra el contenido de la primera tabla.

    5. En el editor de consultas, copia la segunda tabla sustituyendo la consulta anterior por la siguiente. Sustituye PROJECT_ID por el identificador del proyecto.

      CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
      COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
      
    6. Haz clic en Ejecutar. En este paso se crea la segunda tabla, llamada nyc_green_trips_2022.

    7. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso se muestra el contenido de la segunda tabla.

    Agregar datos en una tabla nueva

    1. En el editor de consultas, escribe la siguiente consulta. Sustituye PROJECT_ID por el identificador de tu proyecto.

      CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
      AS SELECT vendor_id, COUNT(*) AS number_of_trips
      FROM (
           SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
           UNION ALL
           SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
      )
      GROUP BY vendor_id
      
    2. Haz clic en Ejecutar. En este paso se crea una tabla combinada llamada total_green_trips_22_21.

    3. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso se muestra la tabla combinada.

    Ver el gráfico de linaje en Dataplex Universal Catalog

    1. En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

      Ir a la búsqueda

    2. En Elegir plataforma de búsqueda, selecciona Dataplex Universal Catalog como modo de búsqueda.

    3. En el cuadro Buscar, escribe total_green_trips_22_21 y haz clic en Buscar.

    4. En la lista de resultados, haga clic en total_green_trips_22_21. En este paso se muestra la pestaña Detalles de la tabla de BigQuery.

    5. Haz clic en la pestaña Linaje.

    La tabla total_green_trips_22_21 con el panel de detalles acoplado en la parte inferior.
    Imagen 1. Linaje de datos con detalles de los nodos

    En el gráfico de linaje, cada nodo rectangular representa una tabla, ya sea original, copiada o combinada. Puedes hacer lo siguiente:

    • Para mostrar u ocultar el origen de una tabla, haz clic en + (Ampliar) o - (Contraer).

    • Para mostrar la información de la tabla, haz clic en un nodo. En este paso se muestra un panel Detalles del nodo.

    • Para mostrar la información del proceso, haz clic en Ver los detalles del proceso de linaje. En este paso se muestra un panel Detalles del proceso que muestra la tarea que ha transformado una tabla de origen en una tabla de destino.

    La tabla intermedia nyc_green_trips_2021 con el panel de detalles acoplado en la parte inferior.
    Imagen 2. Linaje de datos con detalles del proceso

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    Eliminar el proyecto

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Eliminar el conjunto de datos

    1. En la Google Cloud consola, ve a la página BigQuery.

      Ir a BigQuery

    2. En el panel Explorador, busca el conjunto de datos data_lineage_demo que has creado.

    3. Haz clic con el botón derecho en el conjunto de datos y selecciona Eliminar.

    4. Confirma que quieres eliminarlo.

    Siguientes pasos