Informazioni sulla derivazione dei dati

La derivazione dei dati consente di monitorare il modo in cui i dati vengono spostati attraverso i sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.

Perché è necessaria la lineage dei dati?

La gestione di set di dati di grandi dimensioni spesso comporta la trasformazione dei dati in entità personalizzate in base alle esigenze di un progetto specifico: file di testo, tabelle, report, dashboard, modelli.

Ad esempio, supponiamo di avere un negozio online in cui registri ogni acquisto in una singola tabella SQL. Per semplificare il lavoro degli analisti con i dati, inizi a eseguire job che estraggono informazioni da questa singola tabella e producono tabelle più piccole per regione, brand o prezzo di vendita. Gli analisti iniziano a fare lo stesso: eseguono ulteriori trasformazioni, unendo queste tabelle più piccole ad altre origini dati per produrre ancora più tabelle.

Questo può diventare una grande sfida per i tuoi stakeholder:

  • I consumer di dati non possono utilizzare uno strumento self-service per capire se i dati provengono da un'origine autorevole.
  • Gli ingegneri dei dati non possono individuare la causa principale dei problemi a causa della mancanza di un modo affidabile per monitorare tutte le trasformazioni dei dati.
  • Gli ingegneri e gli analisti dei dati non possono valutare completamente il possibile impatto prima di modificare o eliminare le tabelle.
  • I responsabili della governance dei dati non riescono a capire come vengono utilizzati i dati sensibili in tutta l'organizzazione e a verificare il rispetto dei requisiti normativi.

La lineage dei dati è una soluzione che fornisce un modo pratico per fare quanto segue:

  • Comprendere come vengono acquisiti e trasformati i dati con l'aiuto dei grafici di derivazione.
  • Trace gli errori relativi alle voci e alle operazioni sui dati fino alle loro cause principali.
  • Migliora la gestione delle modifiche tramite l'analisi dell'impatto: evita tempi di inattività o errori imprevisti, comprendi le voci dipendenti e collabora con le parti interessate pertinenti.

Modello informativo della derivazione dei dati

Nella sua forma base, la derivazione è un record di dati trasformati dalle origini alle destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in unmodello dei datii gerarchico utilizzando i concetti di processi, esecuzioni ed eventi.

Processo

Un processo è la definizione di un'operazione di trasformazione dei dati supportata per un sistema specifico. Nel contesto della derivazione di BigQuery, un process è uno dei tipi di job supportati.

Esegui

Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni. Le corse contengono dettagli come orari di inizio e di fine, stato o attributi aggiuntivi. Per saperne di più, consulta il riferimento alla risorsa run.

Evento

Un evento rappresenta un momento nel tempo in cui è stata eseguita un'operazione di trasformazione dei dati e ha comportato lo spostamento dei dati tra un'entità di origine e una di destinazione.

Gli eventi contengono un elenco di link che definiscono quale voce è l'origine e quale è la destinazione in un determinato evento. Sebbene gli eventi vengano utilizzati per calcolare i grafici di derivazione, non vengono esposti direttamente nella console Google Cloud . Puoi creare, leggere ed eliminare (ma non aggiornare) questi asset utilizzando l'API Data Lineage.

Esempio

Considera il seguente esempio in cui i dati vengono copiati tra le tabelle BigQuery:

L'esempio estrae i dati dalle tabelle customer_year e customers per
  derivare una tabella denominata top_customer.
Esempio di un grafico che mostra le origini dei dati della tabella.

Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di derivazione (rappresentato nel grafico dall'icona Icona del processo di derivazione di BigQuery.): potrebbe trattarsi di una query SQL CREATE TABLE AS SELECT o di un'istruzione INSERT.

Ogni esecuzione di questa istruzione SQL costituirebbe una singola esecuzione. Le esecuzioni contengono eventi che registrano quali tabelle sono state utilizzate come origini e quali come destinazioni. In questo esempio, le tabelle customer_year e customers sono entrambe l'origine per la tabella di destinazione top_customer.

Grafico di derivazione

I grafici di derivazione rappresentano le informazioni raccolte dall'API Data Lineage per una determinata voce del Catalogo universale Dataplex. Un grafico di derivazione mostra la derivazione a monte o a valle di una singola voce radice. Radice si riferisce all'entry di cui stai visualizzando la derivazione.

Il grafico di esempio mostra i dati di due tabelle che vengono trasformati e poi uniti
  in una nuova tabella, con un riquadro dei dettagli che mostra il codice SQL ancorato in basso.
Esempio di un grafico di derivazione nella console Google Cloud .

Dataplex Universal Catalog funziona con l'API Data Lineage per identificare le voci il cui nome completo corrisponde alle entità riconosciute dalla derivazione dei dati. Per le voci di Dataplex Universal Catalog corrispondenti, puoi accedere alla scheda Lignaggio nella pagina dei dettagli e visualizzare il grafico.

I grafici di derivazione mostrano due tipi di elementi:

  • Pulsanti rettangolari larghi che rappresentano le entità coinvolte nella costruzione delle informazioni sulla derivazione come origini o destinazioni di un evento di derivazione.

  • Pulsanti quadrati più piccoli che rappresentano i processi responsabili della creazione o dell'aggiornamento delle entità di origine o di destinazione. I pulsanti di elaborazione utilizzano icone specifiche del sistema di origine che le ha segnalate all'API Data Lineage. Ad esempio, i job BigQuery utilizzano l'icona Icona del processo di derivazione di BigQuery..

Visualizzazione del percorso di derivazione

Le visualizzazioni del percorso di derivazione ti aiutano a comprendere i collegamenti di derivazione tra due risorse selezionate. (Contrasta questo grafico con il grafico di derivazione, che mostra la derivazione a monte o a valle di una singola voce radice, potenzialmente per più origini o destinazioni.)

Scegli la risorsa radice e una risorsa di destinazione e la consoleGoogle Cloud mostra i collegamenti di derivazione tra le due risorse. Altre risorse e processi che non si trovano su un percorso tra le due risorse sono nascosti nella visualizzazione del percorso.

Esempio di visualizzazione del percorso di derivazione nella console Google Cloud .
Esempio di visualizzazione del percorso di derivazione nella console Google Cloud .

Visualizzazione elenco derivazione

La visualizzazione elenco della derivazione mostra informazioni dettagliate sulla derivazione delle entità in una singola tabella.

Rispetto al grafico della derivazione, più adatto per visualizzare grafici della derivazione relativamente piccoli, la visualizzazione elenco della derivazione consente di visualizzare le informazioni sulla derivazione per le entità con molte connessioni.

L'immagine seguente mostra un esempio della visualizzazione elenco della derivazione nella consoleGoogle Cloud . L'elenco che segue descrive l'immagine in modo più dettagliato.

Esempio della visualizzazione elenco della derivazione nella console Google Cloud .
Esempio di visualizzazione elenco della derivazione nella console Google Cloud .
  • Ogni riga della tabella rappresenta un singolo collegamento di derivazione tra due voci. Nel grafico, questi nomi sono rappresentati come i collegamenti di derivazione tra due voci, inclusi eventuali nodi di processo intermedi. Ad esempio, Source e Target sono nodi asset, con eventualmente più nodi di processo tra loro.

  • L'opzione Direzione specifica la parte del flusso di dati da visualizzare nell'elenco, in relazione all'asset principale:

    • A monte: mostra le informazioni sulla derivazione delle voci che sono origini dati per la voce selezionata. Nel grafico di derivazione, queste voci sono quelle che vengono visualizzate a sinistra della voce selezionata.

    • A valle: mostra le informazioni sulla derivazione per le voci che utilizzano o derivano dalla voce selezionata. Nel grafico di derivazione, queste voci sono quelle che vengono visualizzate a destra della voce selezionata.

  • L'opzione Intervallo di tempo consente di filtrare le informazioni sulla derivazione in base all'ora in cui si è verificata la derivazione:

    • Ora di inizio: mostra la derivazione avvenuta dopo l'ora di inizio.

    • Ora di fine: mostra la derivazione avvenuta prima dell'ora di fine.

  • Profondità indica quanto è distante una risorsa di origine o derivata dalla risorsa radice. La visualizzazione elenco mostra fino a 1000 link di derivazione, con una profondità massima dalla radice di 10 link di derivazione. Se esiste una genealogia al di fuori di questo intervallo, riceverai una notifica. Puoi visualizzare la derivazione al di fuori di questo intervallo selezionando il nome di un'altra entità nella visualizzazione elenco.

  • Il riquadro Dettagli mostra informazioni sull'origine del link, sulla destinazione del link e su tutti i processi che hanno creato questo link.

  • Puoi personalizzare le colonne visualizzate nella tabella e filtrare i risultati. Puoi anche esportare i risultati in un file CSV.

Monitoraggio automatizzato della derivazione dei dati

Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati. Per ulteriori informazioni su ogni prodotto supportato, consulta le sezioni seguenti.

BigQuery

L'abilitazione della derivazione dei dati nel tuo progetto BigQuery fa sì che il Catalogo universale Dataplex registri automaticamente le informazioni sulla derivazione per:

I job di copia, query e caricamento BigQuery sono rappresentati come processi. Per visualizzare i dettagli del processo, nel grafico della derivazione, fai clic su . Ogni processo contiene l'job_id di BigQuery nell'elenco attributi per il job BigQuery più recente.

Altri servizi

La derivazione dei dati supporta l'integrazione con i seguenti servizi Google Cloud :

Lignaggio dei dati per le origini dati personalizzate

Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.

Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente se utilizzi un fullyQualifiedName che corrisponde ai nomi completi delle voci Dataplex Universal Catalog esistenti. Se vuoi registrare la derivazione per un'origine dati personalizzata, crea prima una voce personalizzata.

Ogni processo per l'origine dati personalizzata può contenere sql chiavi nell'elenco degli attributi. Il valore di questa chiave verrà utilizzato per eseguire il rendering dell'evidenziazione del codice nel riquadro dei dettagli del grafico del lignaggio dei dati. L'istruzione SQL verrà visualizzata così com'è stata fornita. L'utente è responsabile del filtraggio delle informazioni sensibili. Il nome della chiave sql è sensibile alle maiuscole.

OpenLineage

Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella console Google Cloud . Per maggiori dettagli, vedi Eseguire l'integrazione con OpenLineage.

Limitazioni

  • Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
  • Le informazioni sulla derivazione persistono dopo la rimozione dell'origine dati correlata. ovvero, se rimuovi una tabella BigQuery e la relativa voce di Dataplex Universal Catalog, puoi comunque leggere la derivazione per quella tabella utilizzando l'API per un massimo di 30 giorni.

Accedere alla derivazione dei dati

Per ulteriori informazioni su come accedere alla derivazione dei dati, consulta Utilizzare la derivazione dei dati con i sistemi Google Cloud e l' API Data Lineage.

Prezzi

  • Il Catalogo universale Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per ulteriori informazioni, vedi Prezzi.

  • Per separare gli addebiti della lineage dei dati da altri addebiti nello SKU di elaborazione premium del catalogo universale Dataplex, nel report Cloud Billing, utilizza l'etichetta goog-dataplex-workload-type con il valore LINEAGE.

  • Se chiami l'API Data Lineage Origin sourceType con un valore diverso da CUSTOM, ciò comporta costi aggiuntivi.

Passaggi successivi