Utilizzare la derivazione dei dati in Dataflow

La derivazione dei dati è una funzionalità di Dataflow che consente di monitorare il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.

Ogni pipeline eseguita utilizzando Dataflow ha diverse risorse di dati associate. La derivazione di un asset di dati include la sua origine, cosa succede e dove si sposta nel tempo. Con la derivazione dei dati, puoi monitorare il movimento end-to-end delle risorse di dati, dall'origine alla destinazione finale.

Quando abiliti la derivazione dei dati per i tuoi job Dataflow, Dataflow acquisisce gli eventi di derivazione e li pubblica nell'API Data Lineage di Dataplex Universal Catalog .

Per accedere alle informazioni sulla derivazione tramite Dataplex Universal Catalog, vedi Utilizzare la derivazione dei dati con i sistemi Google Cloud .

Prima di iniziare

Configura il progetto:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.

    Enable the APIs

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.

    Enable the APIs

  6. In Dataflow, devi anche abilitare la derivazione a livello di job. Consulta la sezione Abilitare la derivazione dei dati in Dataflow di questo documento.

    Ruoli obbligatori

    Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:

    Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

    Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

    Per saperne di più sui ruoli di derivazione dei dati, consulta Ruoli predefiniti per la derivazione dei dati.

    Supporto e limitazioni

    La derivazione dei dati in Dataflow presenta le seguenti limitazioni:

    • La derivazione dei dati è supportata nelle versioni dell'SDK Apache Beam 2.63.0 e successive.
    • Devi abilitare la derivazione dei dati per ogni job.
    • L'acquisizione dei dati non è istantanea. Potrebbero essere necessari alcuni minuti prima che i dati di derivazione dei job Dataflow vengano visualizzati in Dataplex Universal Catalog.
    • Sono supportate le seguenti origini e i seguenti sink:

      • Apache Kafka
      • BigQuery
      • Bigtable
      • Cloud Storage
      • JDBC (Java Database Connectivity)
      • Pub/Sub
      • Spanner

      I modelli Dataflow che utilizzano queste origini e destinazioni acquisiscono e pubblicano automaticamente gli eventi di derivazione.

    Abilitare la derivazione dei dati in Dataflow

    Devi abilitare la derivazione a livello di job. Per attivare la lineage dei dati, utilizza l'enable_lineage opzione del servizio Dataflow nel seguente modo:

    Java

    --dataflowServiceOptions=enable_lineage=true
    

    Python

    --dataflow_service_options=enable_lineage=true
    

    Vai

    --dataflow_service_options=enable_lineage=true
    

    gcloud

    Utilizza il comando gcloud dataflow jobs run con l'opzione additional-experiments. Se utilizzi modelli flessibili, utilizza il comando gcloud dataflow flex-template run.

    --additional-experiments=enable_lineage=true
    

    Facoltativamente, puoi specificare uno o entrambi i seguenti parametri con l'opzione service:

    • process_id: un identificatore univoco utilizzato da Dataplex Universal Catalog per raggruppare le esecuzioni dei job. Se non specificato, viene utilizzato il nome del job.
    • process_name: Un nome leggibile per il processo di derivazione dei dati. Se non specificato, viene utilizzato il nome del job con il prefisso "Dataflow ".

    Specifica queste opzioni nel seguente modo:

    Java

    --dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    Python

    --dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    Vai

    --dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    gcloud

    --additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
    

    Visualizza la derivazione nel Catalogo universale Dataplex

    La derivazione dei dati fornisce informazioni sulle relazioni tra le risorse del progetto e i processi che le hanno create. Puoi visualizzare le informazioni sulla derivazione dei dati nella console Google Cloud sotto forma di grafico o di una singola tabella. Puoi anche recuperare le informazioni sulla derivazione dei dati dall'API Data Lineage sotto forma di dati JSON.

    Per saperne di più, consulta Utilizzare la lineage dei dati con i sistemi Google Cloud .

    Disattivare la derivazione dei dati in Dataflow

    Se la derivazione dei dati è attivata per un job specifico e vuoi disattivarla, annulla il job esistente ed esegui una nuova versione del job senza l'opzione di servizio enable_lineage.

    Fatturazione

    L'utilizzo della derivazione dei dati in Dataflow non influisce sulla fattura di Dataflow, ma potrebbe comportare addebiti aggiuntivi sulla fattura di Dataplex Universal Catalog. Per saperne di più, consulta Considerazioni sulla derivazione dei dati e Prezzi del Catalogo universale Dataplex.

    Passaggi successivi