Utilizzare Data Catalog
Data Catalog si integra con BigQuery catalogando automaticamente i metadati relativi a risorse BigQuery come tabelle, set di dati, viste e modelli. Questo documento descrive come cercare queste risorse, visualizzare la derivazione dei dati e aggiungere tag utilizzando Data Catalog.
Cercare risorse BigQuery
Per utilizzare Data Catalog per cercare set di dati, tabelle e progetti preferiti BigQuery:
Nella console Google Cloud , vai alla pagina Ricerca di Data Catalog.
Nel campo Cerca, inserisci una query e poi fai clic su Cerca.
Per perfezionare i parametri di ricerca, utilizza il riquadro Filtri. Ad esempio, nella sezione Sistemi, seleziona la casella di controllo BigQuery. I risultati vengono filtrati in base ai sistemi BigQuery.
Puoi eseguire ricerche di base in Data Catalog tramite la console Google Cloud . Per saperne di più sulla ricerca nella console, consulta Aprire un set di dati pubblico. Google Cloud
Derivazione dei dati
La derivazione dei dati è una funzionalità di Dataplex Universal Catalog che consente di monitorare il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti. Puoi accedere alla funzionalità di lineage dei dati direttamente da BigQuery.
L'attivazione della derivazione dei dati nel progetto BigQuery fa sì che il Catalogo universale Dataplex registri automaticamente le informazioni sulla derivazione per le tabelle create dalle seguenti operazioni:
- Job di copia.
Job di query che utilizzano le seguenti istruzioni DDL (Data Definition Language) o DML (Data Manipulation Language) in GoogleSQL:
CREATE TABLE
(incluso l'estratto contoCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Prima di iniziare
In questa sezione, abiliti l'API Data Lineage e concedi i ruoli Identity and Access Management (IAM) che forniscono agli utenti le autorizzazioni necessarie per eseguire ogni attività descritta in questo documento.
Abilita la derivazione dei dati
- Nella Google Cloud console, nella pagina del selettore di progetti, seleziona il progetto che contiene le risorse di cui vuoi monitorare la derivazione.
- Abilita l'API Data Lineage e l'API Dataplex.
Ruoli IAM richiesti
Le informazioni sulla derivazione vengono monitorate automaticamente quando abiliti l'API Data Lineage.
Per ottenere le autorizzazioni necessarie per visualizzare i grafici di derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Visualizzatore Data Catalog (
roles/datacatalog.viewer
) in un progetto di risorsa Data Catalog. -
Visualizzatore della derivazione dei dati (
roles/datalineage.viewer
) nel progetto in cui utilizzi sistemi supportati dalla derivazione dei dati. -
BigQuery Metadata (
roles/bigquery.metadataViewer
)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per maggiori informazioni, consulta la sezione Ruoli di derivazione dei dati.
Visualizzare i grafici di derivazione in BigQuery
Per visualizzare il grafico della derivazione dei dati da BigQuery:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e il set di dati, quindi seleziona una tabella.
Fai clic sulla scheda Lignaggio.
Viene visualizzato il grafico della derivazione dei dati.
(Facoltativo) Seleziona un nodo per visualizzare ulteriori dettagli sulle entità o sui processi coinvolti nella creazione delle informazioni sulla derivazione.
Per saperne di più sulla derivazione dei dati, vedi Informazioni sulla derivazione dei dati.
Tag e modelli di tag
I tag consentono alle organizzazioni di creare, cercare e gestire i metadati per tutte le voci di dati in un servizio unificato.
Questa sezione spiega due concetti chiave di Data Catalog:
I tag ti consentono di fornire il contesto per una voce di dati collegando campi di metadati personalizzati.
I modelli di tag sono strutture riutilizzabili per creare rapidamente nuovi tag.
Tag
Data Catalog fornisce due tipi di tag: privati e pubblici.
Tag privati
I tag privati forniscono controlli dell'accesso rigorosi. Puoi cercare o visualizzare i tag e le voci di dati associate ai tag solo se ti vengono concesse le autorizzazioni di visualizzazione richieste sia per il modello di tag privato sia per le voci di dati.
La ricerca di tag privati nella pagina Data Catalog richiede
l'utilizzo della sintassi di ricerca tag:
o dei filtri di ricerca.
I tag privati sono adatti agli scenari in cui devi memorizzare alcune informazioni sensibili nel tag e vuoi applicare ulteriori restrizioni di accesso oltre a verificare se l'utente dispone delle autorizzazioni per visualizzare la voce taggata.
Tag pubblici
I tag pubblici forniscono controllo dell'accesso meno rigoroso per la ricerca e la visualizzazione del tag
rispetto ai tag privati. Qualsiasi utente che disponga delle autorizzazioni di visualizzazione necessarie per una voce di dati può visualizzare tutti i tag pubblici associati. Le autorizzazioni di visualizzazione per i tag pubblici sono necessarie solo quando esegui una ricerca in Data Catalog utilizzando la sintassi tag:
o quando visualizzi un modello di tag non collegato.
I tag pubblici supportano sia la ricerca semplice sia la ricerca con predicati nella pagina di ricerca di Data Catalog. Quando crei un modello di tag, l'opzione per creare un modello di tag pubblico è l'opzione predefinita e consigliata nella console Google Cloud .
Ad esempio, supponiamo che tu abbia un modello di tag pubblico chiamato employee data
che hai utilizzato per creare tag per tre voci di dati chiamate Name
, Location
e Salary
. Tra le tre voci di dati, solo i membri di un gruppo specifico
chiamato HR
possono visualizzare la voce di dati Salary
. Le altre due voci di dati
dispongono delle autorizzazioni di visualizzazione per tutti i dipendenti dell'azienda.
Se un dipendente che non è membro del gruppo HR
utilizza la pagina di ricerca di Data Catalog e cerca con la parola employee
, il risultato di ricerca mostra solo le voci di dati Name
e Location
con i tag pubblici associati.
I tag pubblici sono utili per un'ampia gamma di scenari. I tag pubblici supportano la ricerca semplice e la ricerca con predicati, mentre i tag privati supportano solo la ricerca con predicati.
Modelli di tag
Per iniziare a utilizzare il tagging dei metadati, devi prima creare uno o più modelli di tag. Un modello di tag può essere un modello di tag pubblico o privato. Quando crei un modello di tag, l'opzione per creare un modello di tag pubblico è l'opzione predefinita e consigliata nella console Google Cloud . Un modello di tag è un gruppo di coppie chiave-valore di metadati chiamate campi. Disporre di un insieme di modelli è simile ad avere uno schema di database per i metadati.
Puoi strutturare i tag per argomento. Ad esempio:
- Un tag
data governance
con campi per il responsabile della governance dei dati, la data di conservazione, la data di eliminazione, le PII (sì o no), la classificazione dei dati (pubblici, riservati, sensibili, normativi) - Un tag
data quality
con campi per problemi di qualità, frequenza di aggiornamento, informazioni sull'SLO - Un tag
data usage
con campi per gli utenti principali, le query principali e gli utenti medi giornalieri
Puoi quindi combinare i tag utilizzando solo quelli pertinenti per ogni asset di dati e per le esigenze della tua attività.
Visualizzare la galleria dei modelli di tag
Per aiutarti a iniziare, Data Catalog include una galleria di modelli di tag di esempio per illustrare i casi d'uso comuni del tagging. Utilizza questi esempi per scoprire la potenza del tagging, per trovare ispirazione o come punto di partenza per creare la tua infrastruttura di tagging.
Per utilizzare una galleria di modelli di tag:
Nella console Google Cloud , vai alla pagina Modelli di tag di Dataplex Universal Catalog.
Fai clic su Crea modello di tag.
La galleria modelli viene visualizzata nella pagina Crea modello.
Dopo aver selezionato un modello dalla galleria, puoi utilizzarlo come qualsiasi altro modello di tag. Puoi aggiungere o eliminare attributi e modificare qualsiasi aspetto del modello per adattarlo alle esigenze della tua attività. Puoi quindi cercare i campi e i valori del modello utilizzando Data Catalog.
Per saperne di più sui tag e sui modelli di tag, consulta Tag e modelli di tag.
Risorse di regione
Ogni modello di tag e tag viene archiviato in una Google Cloud regione specifica. Puoi utilizzare un modello di tag per creare un tag in qualsiasi regione, quindi non devi creare copie del modello se hai voci di metadati distribuite in più regioni.