Se usó la API de Cloud Translation para traducir esta página.

Acerca del linaje de datos

El linaje de datos te ayuda a hacer un seguimiento de cómo los datos se mueven a través de tus sistemas. Puedes ver el origen, los destinos y las transformaciones aplicadas a un activo de datos.

Puedes ver la información del linaje en la consola de Google Cloud para los recursos de Dataplex Universal Catalog, BigQuery y Vertex AI, o bien puedes recuperarla con la API de Data Lineage.

Por qué necesitas el linaje de datos

Los conjuntos de datos grandes a menudo requieren que los datos se transformen en varios formatos para proyectos específicos, como archivos de texto, tablas, informes, paneles y modelos.

Por ejemplo, una tienda en línea podría tener una canalización de datos con el siguiente flujo:

Un trabajo de Dataflow lee eventos de compra sin procesar de un tema de Pub/Sub, detalles de productos de archivos de Cloud Storage y la información del cliente de una tabla de BigQuery. El trabajo une esta información y crea una tabla purchases en BigQuery.
Los trabajos posteriores de BigQuery transforman la tabla purchases para crear tablas agregadas más pequeñas, como region o brand, y calcular columnas nuevas, como total_profit.
Los analistas usan estas tablas para generar informes y paneles en Looker.

Esta situación común puede presentar varios desafíos:

Los consumidores de datos no tienen un método de autoservicio para verificar si los datos provienen de una fuente autorizada.
A los ingenieros de datos les cuesta encontrar la causa raíz de los problemas porque no pueden hacer un seguimiento confiable de todas las transformaciones de datos. Por ejemplo, si un analista encuentra un error en una columna total_profit, es difícil rastrear el error hasta su origen.
Los ingenieros y analistas de datos no pueden evaluar por completo el impacto potencial de modificar o borrar tablas. Por ejemplo, antes de desaprobar una columna product_id, deben identificar todas las columnas secundarias dependientes para evitar que se interrumpan los informes.
Los administradores de datos no tienen visibilidad sobre cómo se usan los datos sensibles en toda la organización, lo que dificulta garantizar el cumplimiento de los requisitos reglamentarios.

El linaje de datos resuelve estos problemas, ya que proporciona un mapa visual y claro del recorrido de tus datos. Con el linaje de datos, puedes hacer lo siguiente:

Comprende cómo se originan y transforman los datos con los gráficos de linaje.
Rastrear los errores en las entradas y operaciones de datos hasta sus causas raíz
Mejora la administración de cambios a través del análisis de impacto para evitar el tiempo de inactividad o los errores inesperados, comprender las dependencias y colaborar con las partes interesadas.

Flujo de trabajo del linaje de datos

El flujo de trabajo del linaje de datos incluye los siguientes pasos:

Fuentes de datos y transferencia: La información del linaje de tus fuentes de datos inicia todo el proceso. Para obtener más información, consulta Fuentes de linaje.
- Google Cloud servicios: Cuando la API de Data Lineage está habilitada, los servicios compatibles, como BigQuery y Dataflow, informan automáticamente los eventos de linaje cada vez que se mueven o transforman los datos.
- Fuentes personalizadas: Para cualquier sistema que no sea compatible automáticamente con las integraciones deGoogle Cloud , puedes usar la API de Data Lineage para registrar manualmente la información de linaje. Te recomendamos que importes eventos con el formato del estándar de OpenLineage.
Plataforma de linaje: Esta plataforma central ingiere, modela y almacena todos los datos de linaje. Para obtener más información, consulta Modelo y granularidad de la información del linaje.
- API de Data Lineage: Esta API actúa como el único punto de entrada para toda la información de linaje entrante. Utiliza un modelo de datos jerárquico que consta de tres conceptos principales: proceso, ejecución y evento.
- Procesamiento y almacenamiento: La plataforma procesa los datos entrantes y los almacena en bases de datos confiables y optimizadas para consultas.
Experiencia del usuario: Puedes interactuar con la información del linaje almacenada de dos maneras principales:
- Exploración visual: En la consola de Google Cloud , un servicio de frontend recupera y renderiza los datos de linaje como un gráfico o una lista interactivos. Esto se admite para Dataplex Universal Catalog, BigQuery y Vertex AI (para modelos, conjuntos de datos, vistas de Feature Store y grupos de atributos). Esto es ideal para explorar visualmente el recorrido de tus datos. Para obtener más información, consulta Vistas de linaje en la consola de Google Cloud .
- Acceso programático: Con un cliente de API, puedes comunicarte directamente con la API de Data Lineage para automatizar la administración del linaje. Esto te permite escribir información de linaje desde fuentes personalizadas. También te permite leer y consultar los datos de linaje almacenados para usarlos en otras aplicaciones o para generar informes personalizados.

Fuentes del linaje

Puedes propagar la información del linaje en Dataplex Universal Catalog de las siguientes maneras:

Automáticamente desde servicios Google Cloud integrados
Manualmente, con la API de Data Lineage para fuentes personalizadas
Importando eventos desde OpenLineage

Seguimiento automatizado del linaje de datos

Cuando habilitas la API de Data Lineage, Google Cloud los sistemas que admiten el linaje de datos comienzan a informar sobre el movimiento de sus datos. Cada sistema integrado puede enviar información de linaje para un rango diferente de fuentes de datos.

BigQuery

Cuando habilitas el linaje de datos en tu proyecto de BigQuery, el catálogo universal de Dataplex registra automáticamente la información del linaje para lo siguiente:

Tablas nuevas creadas como resultado de los siguientes trabajos de BigQuery:
- Trabajos de copia
- Trabajos de carga que usan un URI de Cloud Storage
- Trabajos de consulta que usan el siguiente lenguaje de definición de datos (DDL) en GoogleSQL:
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
Tablas existentes cuando usas las siguientes declaraciones del lenguaje de manipulación de datos (DML) en GoogleSQL:
- SELECT en relación con cualquiera de los tipos de tablas enumerados:
- INSERT SELECT
- MERGE
- UPDATE
- DELETE

Los trabajos de copia, consulta y carga de BigQuery se representan como procesos.

Para ver los detalles del proceso, haz clic en en el gráfico de linaje.

Cada proceso contiene el job_id de BigQuery en la lista de atributos para el trabajo de BigQuery más reciente.

Otros servicios

El linaje de datos admite la integración con los siguientesGoogle Cloud servicios:

Linaje de datos para fuentes de datos personalizadas

Puedes usar la API de Data Lineage para registrar manualmente la información de linaje de cualquier fuente de datos que no sea compatible con los sistemas integrados.

Dataplex Universal Catalog puede crear gráficos de linaje para el linaje registrado manualmente si usas un fullyQualifiedName que coincida con los nombres completamente calificados de las entradas existentes de Dataplex Universal Catalog. Si deseas registrar el linaje de una fuente de datos personalizada, primero debes crear una entrada personalizada.

Cada proceso de una fuente de datos personalizada puede contener una clave sql en la lista de atributos. El valor de esta clave se usa para renderizar un resaltado de código en el panel de detalles del gráfico de linaje de datos. La instrucción de SQL se muestra tal como se proporcionó. Tu objetivo es filtrar la información sensible. El nombre de la clave sql distingue mayúsculas de minúsculas.

OpenLineage

Si ya usas OpenLineage para recopilar información de linaje de otras fuentes de datos, puedes importar eventos de OpenLineage a Dataplex Universal Catalog y verlos en la consola de Google Cloud . Para obtener más información, consulta Integración con OpenLineage.

Limitaciones

Las siguientes son limitaciones del linaje de datos:

Toda la información de linaje se conserva en el sistema solo durante 30 días.
La información de linaje persiste después de que borras la fuente de datos relacionada. Por ejemplo, si borras una tabla de BigQuery, puedes ver su linaje a través de la API y la consola durante un máximo de 30 días.

Limitaciones del linaje a nivel de la columna

El linaje a nivel de la columna tiene las siguientes limitaciones adicionales:

El linaje a nivel de la columna no se recopila para los trabajos de carga de BigQuery ni para las rutinas.
No se recopila el linaje ascendente a nivel de la columna para las tablas externas.
No se recopila el linaje a nivel de la columna si un trabajo crea más de 1,500 vínculos a nivel de la columna. En estos casos, solo se recopila el linaje a nivel de la tabla.
No hay una API para crear, leer, actualizar, borrar o buscar linaje a nivel de la columna.
La compatibilidad con las tablas particionadas es limitada, ya que las columnas de partición, como _PARTITIONDATE y _PARTITIONTIME, no se reconocen en el gráfico de linaje.
Limitaciones de la consola:
- El recorrido del gráfico de linaje se limita a una profundidad de 20 niveles y 10,000 vínculos en cada dirección.
- El linaje a nivel de columna solo se recupera de la región en la que se encuentra la tabla raíz. No se admite el linaje entre regiones en la vista de gráfico.

Precios

Dataplex Universal Catalog usa el SKU de procesamiento premium para cobrar el linaje de datos. Para obtener más información, consulta Precios.
Para separar los cargos del linaje de datos de otros cargos en el SKU de procesamiento premium de Dataplex Universal Catalog, en el informe de Facturación de Cloud, usa la etiqueta goog-dataplex-workload-type con el valor LINEAGE.
Si llamas a la API de Data Lineage Origin sourceType con un valor distinto de CUSTOM, se generan costos adicionales.

¿Qué sigue?

Aprende a realizar un seguimiento del linaje de datos de una copia de tabla de BigQuery y de los trabajos de consulta.
Obtén información para usar el linaje de datos con sistemas de Google Cloud .
Obtén información sobre las vistas de linaje en la consola de Google Cloud .
Explora la API de Data Lineage.
Para obtener información administrativa, consulta Consideraciones sobre el linaje y Registro de auditoría del linaje de datos.