OpenLineage es una plataforma abierta de recopilación y analizar la información del linaje de datos. Usa un estándar abierto para el linaje de datos, OpenLineage captura eventos de linaje a partir de componentes de canalizaciones de datos que usan una API de OpenLineage para informar sobre ejecuciones, trabajos y conjuntos de datos.
A través de la API de Data Lineage, puedes importar eventos de OpenLineage para que se muestren en IU de Dataplex junto con información de linaje de servicios de Google Cloud, como BigQuery, Cloud Composer, Cloud Data Fusion y Dataproc.
Para importar eventos de OpenLineage que usan
Especificación de OpenLineage,
usa ProcessOpenLineageRunEvent
de la API de REST y asigna las facetas de OpenLineage a los atributos de la API de Data Lineage.
Limitaciones
La API de Data Lineage es compatible con las versiones principales 1 y 2 de OpenLineage.
La API de Data Lineage no admite lo siguiente:
- Cualquier versión posterior de OpenLineage con cambios de formato de los mensajes
DatasetEvent
JobEvent
El tamaño máximo de un mensaje es de 5 MB.
Longitud de cada Nombre completamente calificado en entradas y salidas tiene un límite de 4,000 caracteres.
Los vínculos se agrupan por eventos con 100 vínculos. La cantidad máxima agregada de es de 1,000.
Dataplex muestra un gráfico de linaje por cada ejecución de trabajo y las entradas. y resultados de los eventos de linaje. No es compatible con procesos de nivel inferior, como Etapas de Spark.
Asignación de OpenLineage
El método ProcessOpenLineageRunEvent
de la API de REST
asigna los atributos de OpenLineage a los atributos de la API de Data Lineage de la siguiente manera:
Atributos de la API de Data Lineage | Atributos de OpenLineage |
---|---|
Process.name | projects/PROJECT_NUMBER/locations/LOCATION/processes/HASH_OF_NAMESPACE_AND_NAME |
Process.displayName | Job.namespace + ":" + Job.name |
Process.attributes | Job.facets (consulta Datos almacenados) |
Run.name | projects/PROJECT_NUMBER/locations/LOCATION/processes/HASH_OF_NAMESPACE_AND_NAME/runs/HASH_OF_RUNID |
Run.displayName | Run.runId |
Run.attributes | Run.facets (consulta Datos almacenados) |
Run.startTime | eventTime |
Run.endTime | eventTime |
Run.state | eventType |
LineageEvent.name | projects/PROJECT_NUMBER/locations/LOCATION/processes/HASH_OF_NAMESPACE_AND_NAME/runs/HASH_OF_RUNID/lineageEvents/HASH_OF_JOB_RUN_INPUT_OUTPUTS_OF_EVENT (p.ej., projects/11111111/locations/us/processes/1234/runs/4321/lineageEvents/111-222-333) |
LineageEvent.EventLinks.source | entradas (fqn es la concatenación de nombres y espacios de nombres) |
LineageEvent.EventLinks.target | resultados (fqn es la concatenación de nombres y espacios de nombres) |
LineageEvent.startTime | eventTime |
LineageEvent.endTime | eventTime |
requestId | Definido por el usuario del método |
Cómo importar un evento de OpenLineage
Si aún no configuraste OpenLineage, consulta Cómo comenzar.
Para importar un evento de OpenLineage a Dataplex, llama al método de la API de REST
ProcessOpenLineageRunEvent
:
POST https://datalineage.googleapis.com/v1/projects/{project}/locations/{location}:processOpenLineageRunEvent \
--data '{"eventTime":"2023-04-04T13:21:16.098Z","eventType":"COMPLETE","inputs":[{"name":"somename","namespace":"somenamespace"}],"job":{"name":"somename","namespace":"somenamespace"},"outputs":[{"name":"somename","namespace":"somenamespace"}],"producer":"someproducer","run":{"runId":"somerunid"},"schemaURL":"https://openlineage.io/spec/1-0-5/OpenLineage.json#/$defs/RunEvent"}'
Analiza información de OpenLineage
Para analizar los eventos importados de OpenLineage, consulta Visualiza los gráficos de linaje en la IU de Dataplex.
Datos almacenados
La API de Data Lineage no almacena todos los datos de facetas de los mensajes de OpenLineage. La API de Data Lineage almacena los siguientes campos de faceta:
spark_version
openlineage-spark-version
spark-version
- todos los
spark.logicalPlan.*
environment-properties
(faceta de linaje personalizada de Google Cloud)origin.sourcetype
yorigin.name
spark.app.id
spark.app.name
spark.batch.id
spark.batch.uuid
spark.cluster.name
spark.cluster.region
spark.job.id
spark.job.uuid
spark.project.id
spark.query.node.name
spark.session.id
spark.session.uuid
La API de Data Lineage almacena la siguiente información:
eventTime
run.runId
job.namespace
job.name