Consultar el linaje en Dataplex

En esta página, se describe cómo ver el linaje de datos que genera tu Canalizaciones de Cloud Data Fusion con otros movimientos de datos en Google Cloud, con fines de descubrimiento y administración. Puedes ver los gráficos de linaje para las fuentes de datos admitidas en la Página de Dataplex en la consola o usar la API de Data Lineage para recuperar registros completos de linaje de datos.

Complementos que admiten el linaje de datos de Dataplex

Cloud Data Fusion y Dataplex admiten el linaje a nivel del activo para los siguientes complementos:

  • Amazon S3
  • BigQuery
  • Receptor de varias tablas de BigQuery (versión 6.9.1 y posteriores)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Dataplex
  • FTP
  • Base de datos genérica
  • HTTP
  • MSSQL/SQL Server
  • Fuente de varias tablas de bases de datos (versión 6.9.1 y posteriores)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • Tabla de SAP

Para obtener más información, consulta Complementos de Cloud Data Fusion.

Antes de comenzar

Para habilitar la visualización de los gráficos de linaje de Cloud Data Fusion en la Página de Dataplex en la consola, haz lo siguiente:

  1. Crea una canalización de datos que usa solo los complementos compatibles.

  2. Habilita la API de Data Lineage en el proyecto que contiene tu instancia de Cloud Data Fusion.

  3. Otorga el rol de Productor de eventos de linaje de datos (roles/datalineage.producer) a la cuenta de servicio administrada por Cloud Data Fusion, la cuenta de Cloud Servicio de la API de Fusion de operaciones. El proceso varía si la instancia se ejecuta en una versión anterior de Cloud Data Fusion y RBAC están habilitados.

    RBAC 6.10 o superior, o sin RBAC

    Si tu instancia de Cloud Data Fusion usa la versión 6.10.0 o una posterior, o usa una versión anterior y no está habilitada la RBAC, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Selecciona la casilla de verificación Incluir asignaciones de funciones proporcionadas por Google.

    3. Selecciona la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion y haz clic en Editar.

    4. Haz clic en Agregar otra función y selecciona el rol de Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

    < 6.10 con RBAC

    Si tu instancia de Cloud Data Fusion usa una versión anterior a 6.10.0 y RBAC está habilitado, la cuenta de servicio no aparece en el una lista de principales en la página de IAM. Debes ingresar el nombre de la cuenta de servicio de forma manual.

    Para otorgar el rol necesario, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Haz clic en Otorgar acceso.

    3. En el campo Principales nuevas, ingresa la API de Cloud Data Fusion. Cuenta de servicio del agente de servicio. Usa el siguiente formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      Reemplaza TENANT_PROJECT_ID por el el ID de usuario de tu instancia. Para ver el ID del proyecto de usuario, ve a la página Instancias y haz clic en su nombre. más detalles.

      Ir a Instancias

    4. Selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

Habilita el linaje de datos de Dataplex en Cloud Data Fusion

Para instancias nuevas en Cloud Data Fusion, datos de Dataplex el linaje está desactivado de forma predeterminada. Si creaste la instancia antes del 27 de enero, 2024 con la versión 6.8.0 o posterior, se activa de forma predeterminada después de completar los pasos que se indican en Antes de comenzar.

Habilita el linaje de datos de Dataplex cuando crees una instancia

Console

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, sigue estos pasos:

  1. Ve a la página Instancias de Cloud Data Fusion y haz clic en Crear una .

    Crea una instancia

  2. Cuando configures la instancia, expande la sección Opciones avanzadas y haz clic en Habilitar la integración en el linaje de datos de Dataplex. Para ver más información sobre la creación de instancias, consulta Crea un bucket .

API de REST

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, establece la propiedad dataplex_data_lineage_integration_enabled opcional como true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desactivarla, establece la propiedad en falso, o bien omítela, como el linaje está desactivado de forma predeterminada cuando creas una nueva instancia.

Habilita o inhabilita el linaje de datos de Dataplex en una instancia existente

Console

Para habilitar o inhabilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, sigue estos pasos:

  1. Visualiza los detalles de la instancia:
    1. En Google Cloud Console, ve a la página de Cloud Data Fusion.

    2. Haz clic en Instancias y, luego, en el nombre de la instancia para ir a la página Detalles de la instancia.

      Ir a Instancias

  2. En el campo Integración del linaje de datos de Dataplex, haz clic en Editar.
  3. Habilita o inhabilita el linaje de datos de Dataplex y, luego, haz clic en Guardar.

API de REST

Para habilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, establece el dataplex_data_lineage_integration_enabled propiedad a true y, además, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para inhabilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, establece el dataplex_data_lineage_integration_enabled propiedad a false y, además, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Ver gráficos de linaje de datos

Para ver los gráficos de linaje de las entidades en todos los servicios de Google Cloud, haz lo siguiente:

  1. Dirígete a tu instancia en Cloud Data Fusion y ejecuta una canalización de datos que usa complementos compatibles.

  2. Visualiza los gráficos de linaje en la página de Dataplex en la consola y busque el recurso cuya información de linaje quiere ver.

Limitaciones

La visualización del linaje en Dataplex tiene las siguientes limitaciones:

¿Qué sigue?