En este documento se proporciona información sobre el cumplimiento y las limitaciones del linaje de datos. El linaje de datos se habilita por proyecto, no por sistema. Esto significa que, después de habilitar la API Data Lineage, se puede registrar automáticamente información de linaje de varios sistemas del proyecto, en función del control de linaje a nivel de producto de cada sistema.
El seguimiento automático del linaje está disponible en los siguientes sistemas:
Sistema | Controles de linaje disponibles |
---|---|
BigQuery y Cloud Data Fusion |
No se puede configurar para restringir el seguimiento del linaje solo a Cloud Data Fusion o BigQuery cuando la API Data Lineage está habilitada en un proyecto. |
Cloud Composer | Cloud Composer usa el control de integración del linaje de datos a nivel de entorno. El linaje de datos se habilita automáticamente en todos los entornos de Cloud Composer nuevos, siempre que cumplan los requisitos. Consulta Linaje de datos con Dataplex Universal Catalog para obtener más información. En los entornos que ya tengas, puedes habilitar o inhabilitar la integración del linaje de datos en la configuración del entorno. |
Dataflow | Los trabajos de Dataflow pueden capturar eventos de linaje y publicarlos en la API Data Lineage. Para obtener más información, consulta Usar el linaje de datos en Dataflow. |
Dataproc | Las tareas de Spark de Dataproc pueden capturar eventos de linaje y publicarlos en la API Data Lineage. Para obtener más información, consulta Integración de Dataproc con el linaje de datos. |
Vertex AI | El linaje de datos se habilita automáticamente para los artefactos y los parámetros de Vertex AI, como los modelos, los conjuntos de datos, las plantillas de canalizaciones y los componentes. El linaje de una canalización incluye los factores que contribuyeron a su creación, así como los artefactos y los metadatos derivados posteriormente. Consulte Monitorizar el linaje de los artefactos de flujos de procesamiento para obtener más información. |
Impacto en la facturación
Cuando habilites la API Data Lineage en un proyecto, revisa el impacto en los cargos de facturación, ya que la API Data Lineage se habilita por proyecto (consulta la sección anterior para obtener más información). Para obtener más información sobre cómo se cobra el linaje de datos, consulta los precios de Dataplex Universal Catalog.
En BigQuery Omni, el procesamiento del linaje se distribuye en regiones específicas y los costes dependen de las regiones en las que se realice el procesamiento.
Cumplimiento del linaje de datos
- El linaje de datos registra metadatos sobre el movimiento de datos, pero no captura los datos en sí. Consulta el modelo de información de linaje de datos y la referencia de la API Data Lineage para obtener información detallada sobre los campos que se incluyen en los metadatos.
- El linaje de datos, que forma parte de Dataplex Universal Catalog, ofrece compatibilidad con VPC-SC.
- Dataplex Universal Catalog no ofrece la posibilidad de usar claves de cifrado gestionadas por el cliente para proteger los metadatos de linaje recogidos.
Limitaciones del linaje de datos
Si seleccionas un nodo en el gráfico de linaje, el panel lateral de detalles del nodo estará vacío en los siguientes casos:
- Los recursos se encuentran en otra organización.
- El usuario no es miembro de la organización que aloja el recurso.