La derivazione dei dati è una funzionalità di Dataflow che consente di monitorare il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.
Ogni pipeline eseguita utilizzando Dataflow ha diverse risorse di dati associate. La derivazione di un asset di dati include la sua origine, cosa succede e dove si sposta nel tempo. Con la derivazione dei dati, puoi monitorare il movimento end-to-end delle risorse di dati, dall'origine alla destinazione finale.
Quando abiliti la derivazione dei dati per i tuoi job Dataflow, Dataflow acquisisce gli eventi di derivazione e li pubblica nell'API Data Lineage di Dataplex Universal Catalog .
Per accedere alle informazioni sulla derivazione tramite Dataplex Universal Catalog, vedi Utilizzare la derivazione dei dati con i sistemi Google Cloud .
Prima di iniziare
Configura il progetto:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.
-
Visualizzatore del catalogo Dataplex (
roles/dataplex.catalogViewer
) nel progetto di risorse del Catalogo universale Dataplex -
Visualizzatore Data Lineage (
roles/datalineage.viewer
) nel progetto in cui utilizzi Dataflow -
Dataflow Viewer (
roles/dataflow.viewer
) nel progetto in cui utilizzi Dataflow - La derivazione dei dati è supportata nelle versioni dell'SDK Apache Beam 2.63.0 e successive.
- Devi abilitare la derivazione dei dati per ogni job.
- L'acquisizione dei dati non è istantanea. Potrebbero essere necessari alcuni minuti prima che i dati di derivazione dei job Dataflow vengano visualizzati in Dataplex Universal Catalog.
Sono supportate le seguenti origini e i seguenti sink:
- Apache Kafka
- BigQuery
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner
I modelli Dataflow che utilizzano queste origini e destinazioni acquisiscono e pubblicano automaticamente gli eventi di derivazione.
process_id
: un identificatore univoco utilizzato da Dataplex Universal Catalog per raggruppare le esecuzioni dei job. Se non specificato, viene utilizzato il nome del job.process_name
: Un nome leggibile per il processo di derivazione dei dati. Se non specificato, viene utilizzato il nome del job con il prefisso"Dataflow "
.- Scopri di più sulla derivazione dei dati.
- Scopri come utilizzare la derivazione dei dati.
In Dataflow, devi anche abilitare la derivazione a livello di job. Consulta la sezione Abilitare la derivazione dei dati in Dataflow di questo documento.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per saperne di più sui ruoli di derivazione dei dati, consulta Ruoli predefiniti per la derivazione dei dati.
Supporto e limitazioni
La derivazione dei dati in Dataflow presenta le seguenti limitazioni:
Abilitare la derivazione dei dati in Dataflow
Devi abilitare la derivazione a livello di job. Per attivare la lineage dei dati,
utilizza l'enable_lineage
opzione del servizio Dataflow
nel seguente modo:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Vai
--dataflow_service_options=enable_lineage=true
gcloud
Utilizza il
comando gcloud dataflow jobs run
con l'opzione additional-experiments
. Se utilizzi modelli flessibili, utilizza
il comando
gcloud dataflow flex-template run
.
--additional-experiments=enable_lineage=true
Facoltativamente, puoi specificare uno o entrambi i seguenti parametri con l'opzione service:
Specifica queste opzioni nel seguente modo:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Vai
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Visualizza la derivazione nel Catalogo universale Dataplex
La derivazione dei dati fornisce informazioni sulle relazioni tra le risorse del progetto e i processi che le hanno create. Puoi visualizzare le informazioni sulla derivazione dei dati nella console Google Cloud sotto forma di grafico o di una singola tabella. Puoi anche recuperare le informazioni sulla derivazione dei dati dall'API Data Lineage sotto forma di dati JSON.
Per saperne di più, consulta Utilizzare la lineage dei dati con i sistemi Google Cloud .
Disattivare la derivazione dei dati in Dataflow
Se la derivazione dei dati è attivata per un job specifico e vuoi disattivarla, annulla il job esistente ed esegui una nuova versione del job senza l'opzione di servizio enable_lineage
.
Fatturazione
L'utilizzo della derivazione dei dati in Dataflow non influisce sulla fattura di Dataflow, ma potrebbe comportare addebiti aggiuntivi sulla fattura di Dataplex Universal Catalog. Per saperne di più, consulta Considerazioni sulla derivazione dei dati e Prezzi del Catalogo universale Dataplex.