La derivazione dei dati consente di monitorare il modo in cui i dati vengono spostati attraverso i sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.
Perché è necessaria la lineage dei dati?
La gestione di set di dati di grandi dimensioni spesso comporta la trasformazione dei dati in entità personalizzate in base alle esigenze di un progetto specifico: file di testo, tabelle, report, dashboard, modelli.
Ad esempio, supponiamo di avere un negozio online in cui registri ogni acquisto in una singola tabella SQL. Per semplificare il lavoro degli analisti con i dati, inizi a eseguire job che estraggono informazioni da questa singola tabella e producono tabelle più piccole per regione, brand o prezzo di vendita. Gli analisti iniziano a fare lo stesso: eseguono ulteriori trasformazioni, unendo queste tabelle più piccole ad altre origini dati per produrre ancora più tabelle.
Questo può diventare una grande sfida per i tuoi stakeholder:
- I consumer di dati non possono utilizzare uno strumento self-service per capire se i dati provengono da un'origine autorevole.
- Gli ingegneri dei dati non possono individuare la causa principale dei problemi a causa della mancanza di un modo affidabile per monitorare tutte le trasformazioni dei dati.
- Gli ingegneri e gli analisti dei dati non possono valutare completamente il possibile impatto prima di modificare o eliminare le tabelle.
- I responsabili della governance dei dati non riescono a capire come vengono utilizzati i dati sensibili in tutta l'organizzazione e a verificare il rispetto dei requisiti normativi.
La lineage dei dati è una soluzione che fornisce un modo pratico per fare quanto segue:
- Comprendere come vengono acquisiti e trasformati i dati con l'aiuto dei grafici di derivazione.
- Trace gli errori relativi alle voci e alle operazioni sui dati fino alle loro cause principali.
- Migliora la gestione delle modifiche tramite l'analisi dell'impatto: evita tempi di inattività o errori imprevisti, comprendi le voci dipendenti e collabora con le parti interessate pertinenti.
Modello informativo della derivazione dei dati
Nella sua forma base, la derivazione è un record di dati trasformati dalle origini alle destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in unmodello dei datii gerarchico utilizzando i concetti di processi, esecuzioni ed eventi.
Processo
Un processo è la definizione di un'operazione di trasformazione dei dati supportata per
un sistema specifico. Nel contesto della derivazione di BigQuery, un process
è uno dei tipi di job supportati.
Esegui
Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni.
Le corse contengono dettagli come orari di inizio e di fine, stato o attributi aggiuntivi.
Per saperne di più, consulta il
riferimento alla risorsa run
.
Evento
Un evento rappresenta un momento nel tempo in cui è stata eseguita un'operazione di trasformazione dei dati e ha comportato lo spostamento dei dati tra un'entità di origine e una di destinazione.
Gli eventi contengono un elenco di link che definiscono quale voce è l'origine e quale è la destinazione in un determinato evento. Sebbene gli eventi vengano utilizzati per calcolare i grafici di derivazione, non vengono esposti direttamente nella console Google Cloud . Puoi creare, leggere ed eliminare (ma non aggiornare) questi asset utilizzando l'API Data Lineage.
Esempio
Considera il seguente esempio in cui i dati vengono copiati tra le tabelle BigQuery:

Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di derivazione
(rappresentato nel grafico dall'icona
): potrebbe trattarsi di una query SQL
CREATE TABLE AS SELECT
o di un'istruzione INSERT
.
Ogni esecuzione di questa istruzione SQL costituirebbe una singola esecuzione.
Le esecuzioni contengono eventi che registrano quali tabelle sono state utilizzate come origini e quali come destinazioni. In questo esempio, le tabelle
customer_year
e customers
sono entrambe l'origine
per la tabella di destinazione top_customer
.
Grafico di derivazione
I grafici di derivazione rappresentano le informazioni raccolte dall'API Data Lineage per una determinata voce del Catalogo universale Dataplex. Un grafico di derivazione mostra la derivazione a monte o a valle di una singola voce radice. Radice si riferisce all'entry di cui stai visualizzando la derivazione.

Dataplex Universal Catalog funziona con l'API Data Lineage per identificare le voci il cui nome completo corrisponde alle entità riconosciute dalla derivazione dei dati. Per le voci di Dataplex Universal Catalog corrispondenti, puoi accedere alla scheda Lignaggio nella pagina dei dettagli e visualizzare il grafico.
I grafici di derivazione mostrano due tipi di elementi:
Pulsanti rettangolari larghi che rappresentano le entità coinvolte nella costruzione delle informazioni sulla derivazione come origini o destinazioni di un evento di derivazione.
Pulsanti quadrati più piccoli che rappresentano i processi responsabili della creazione o dell'aggiornamento delle entità di origine o di destinazione. I pulsanti di elaborazione utilizzano icone specifiche del sistema di origine che le ha segnalate all'API Data Lineage. Ad esempio, i job BigQuery utilizzano l'icona
.
Visualizzazione del percorso di derivazione
Le visualizzazioni del percorso di derivazione ti aiutano a comprendere i collegamenti di derivazione tra due risorse selezionate. (Contrasta questo grafico con il grafico di derivazione, che mostra la derivazione a monte o a valle di una singola voce radice, potenzialmente per più origini o destinazioni.)
Scegli la risorsa radice e una risorsa di destinazione e la consoleGoogle Cloud mostra i collegamenti di derivazione tra le due risorse. Altre risorse e processi che non si trovano su un percorso tra le due risorse sono nascosti nella visualizzazione del percorso.

Visualizzazione elenco derivazione
La visualizzazione elenco della derivazione mostra informazioni dettagliate sulla derivazione delle entità in una singola tabella.
Rispetto al grafico della derivazione, più adatto per visualizzare grafici della derivazione relativamente piccoli, la visualizzazione elenco della derivazione consente di visualizzare le informazioni sulla derivazione per le entità con molte connessioni.
L'immagine seguente mostra un esempio della visualizzazione elenco della derivazione nella consoleGoogle Cloud . L'elenco che segue descrive l'immagine in modo più dettagliato.

Ogni riga della tabella rappresenta un singolo collegamento di derivazione tra due voci. Nel grafico, questi nomi sono rappresentati come i collegamenti di derivazione tra due voci, inclusi eventuali nodi di processo intermedi. Ad esempio,
Source
eTarget
sono nodi asset, con eventualmente più nodi di processo tra loro.L'opzione Direzione specifica la parte del flusso di dati da visualizzare nell'elenco, in relazione all'asset principale:
A monte: mostra le informazioni sulla derivazione delle voci che sono origini dati per la voce selezionata. Nel grafico di derivazione, queste voci sono quelle che vengono visualizzate a sinistra della voce selezionata.
A valle: mostra le informazioni sulla derivazione per le voci che utilizzano o derivano dalla voce selezionata. Nel grafico di derivazione, queste voci sono quelle che vengono visualizzate a destra della voce selezionata.
L'opzione Intervallo di tempo consente di filtrare le informazioni sulla derivazione in base all'ora in cui si è verificata la derivazione:
Ora di inizio: mostra la derivazione avvenuta dopo l'ora di inizio.
Ora di fine: mostra la derivazione avvenuta prima dell'ora di fine.
Profondità indica quanto è distante una risorsa di origine o derivata dalla risorsa radice. La visualizzazione elenco mostra fino a 1000 link di derivazione, con una profondità massima dalla radice di 10 link di derivazione. Se esiste una genealogia al di fuori di questo intervallo, riceverai una notifica. Puoi visualizzare la derivazione al di fuori di questo intervallo selezionando il nome di un'altra entità nella visualizzazione elenco.
Il riquadro Dettagli mostra informazioni sull'origine del link, sulla destinazione del link e su tutti i processi che hanno creato questo link.
Puoi personalizzare le colonne visualizzate nella tabella e filtrare i risultati. Puoi anche esportare i risultati in un file CSV.
Monitoraggio automatizzato della derivazione dei dati
Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati. Per ulteriori informazioni su ogni prodotto supportato, consulta le sezioni seguenti.
BigQuery
L'abilitazione della derivazione dei dati nel tuo progetto BigQuery fa sì che il Catalogo universale Dataplex registri automaticamente le informazioni sulla derivazione per:
Nuove tabelle risultanti dai seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano l'URI Cloud Storage per caricare dati in qualsiasi formato consentito da Cloud Storage
- Job di query che utilizzano il seguente linguaggio di definizione dei dati (DDL) in GoogleSQL:
Tabelle esistenti a seguito dell'utilizzo delle seguenti istruzioni DML (Data Manipulation Language) in GoogleSQL:
- SELECT in relazione a uno dei tipi di tabella elencati:
- INSERT SELECT
- MERGE
- AGGIORNAMENTO
- ELIMINA
I job di copia, query e caricamento BigQuery sono rappresentati
come processi. Per visualizzare i dettagli del processo,
nel grafico della derivazione, fai clic su
.
Ogni processo contiene l'job_id di BigQuery
nell'elenco
attributi
per il job BigQuery più recente.
Altri servizi
La derivazione dei dati supporta l'integrazione con i seguenti servizi Google Cloud :
Lignaggio dei dati per le origini dati personalizzate
Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.
Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente se utilizzi un fullyQualifiedName
che corrisponde ai nomi completi delle voci Dataplex Universal Catalog esistenti. Se vuoi registrare
la derivazione per un'origine dati personalizzata, crea prima una
voce personalizzata.
Ogni processo per l'origine dati personalizzata può contenere sql
chiavi nell'elenco degli attributi. Il valore di questa chiave verrà utilizzato per eseguire il rendering dell'evidenziazione del codice nel riquadro dei dettagli del grafico del lignaggio dei dati. L'istruzione SQL verrà visualizzata così com'è
stata fornita. L'utente è responsabile del filtraggio delle informazioni sensibili. Il
nome della chiave sql
è sensibile alle maiuscole.
OpenLineage
Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella console Google Cloud . Per maggiori dettagli, vedi Eseguire l'integrazione con OpenLineage.
Limitazioni
- Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
- Le informazioni sulla derivazione persistono dopo la rimozione dell'origine dati correlata. ovvero, se rimuovi una tabella BigQuery e la relativa voce di Dataplex Universal Catalog, puoi comunque leggere la derivazione per quella tabella utilizzando l'API per un massimo di 30 giorni.
Accedere alla derivazione dei dati
Per ulteriori informazioni su come accedere alla derivazione dei dati, consulta Utilizzare la derivazione dei dati con i sistemi Google Cloud e l' API Data Lineage.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per ulteriori informazioni, vedi Prezzi.
Per separare gli addebiti della lineage dei dati da altri addebiti nello SKU di elaborazione premium del catalogo universale Dataplex, nel report Cloud Billing, utilizza l'etichetta
goog-dataplex-workload-type
con il valoreLINEAGE
.Se chiami l'API Data Lineage
Origin
sourceType
con un valore diverso daCUSTOM
, ciò comporta costi aggiuntivi.
Passaggi successivi
Scopri come monitorare la derivazione dei dati per una copia della tabella BigQuery e per i job di query.
Scopri come utilizzare la derivazione dei dati con i sistemi Google Cloud .
Per informazioni amministrative, vedi Considerazioni sulla derivazione e Log di controllo della derivazione dei dati.