La profilazione dei dati di Dataplex Universal Catalog consente di identificare le caratteristiche statistiche comuni delle colonne nelle tabelle BigQuery. Queste informazioni ti aiutano a comprendere e analizzare i tuoi dati in modo più efficace.
Informazioni come i valori tipici dei dati, la distribuzione dei dati e i conteggi dei valori nulli possono accelerare l'analisi. Se combinata con la classificazione dei dati, la profilazione dei dati può rilevare classi di dati o informazioni sensibili che, a loro volta, possono attivare policy di controllo dell'accesso.
Il Catalogo universale Dataplex utilizza queste informazioni anche per consigliare regole per i controlli di qualità dei dati.
Modello concettuale
Dataplex Universal Catalog ti consente di comprendere meglio il profilo dei tuoi dati creando una scansione di profilazione dei dati.
Il seguente diagramma mostra come Dataplex Universal Catalog esegue la scansione dei dati per generare report sulle caratteristiche statistiche.
Una scansione di profilazione dei dati è associata a una tabella BigQuery e la analizza per generare i risultati della profilazione dei dati. Una scansione di profilazione dei dati supporta diverse opzioni di configurazione.
Opzioni di configurazione
Questa sezione descrive le opzioni di configurazione disponibili per l'esecuzione delle scansioni di profilazione dei dati.
Opzioni di programmazione
Puoi pianificare una scansione del profilo di dati con una frequenza definita o su richiesta tramite l'API o la Google Cloud console.
Ambito
Nell'ambito della specifica di una scansione del profilo di dati, puoi specificare l'ambito di un job come una delle seguenti opzioni:
Tabella completa: l'intera tabella viene analizzata nella scansione del profilo di dati. Il campionamento, i filtri delle righe e i filtri delle colonne vengono applicati all'intera tabella prima di calcolare le statistiche di profilazione.
Incrementale: i dati incrementali che specifichi vengono scansionati nella scansione del profilo di dati. Specifica una colonna
Date
oTimestamp
nella tabella da utilizzare come incremento. In genere, questa è la colonna in base alla quale è partizionata la tabella. Il campionamento, i filtri per le righe e i filtri per le colonne vengono applicati ai dati incrementali prima del calcolo delle statistiche di profilazione.
Filtra dati
Puoi filtrare i dati da analizzare per la profilazione utilizzando i filtri per righe e colonne. L'utilizzo dei filtri consente di ridurre il tempo e il costo di esecuzione ed escludere i dati sensibili e inutili.
Filtri per riga: i filtri per riga ti consentono di concentrarti sui dati in un periodo di tempo specifico o di un segmento specifico, ad esempio una regione. Ad esempio, puoi filtrare i dati con un timestamp precedente a una determinata data.
Filtri delle colonne: i filtri delle colonne ti consentono di includere ed escludere colonne specifiche dalla tabella per eseguire la scansione di profilazione dei dati.
Dati di esempio
Dataplex Universal Catalog consente di specificare una percentuale di record dei dati da campionare per l'esecuzione di una scansione di profilazione dei dati. La creazione di scansioni di profilazione dei dati su un campione più piccolo di dati può ridurre il tempo di esecuzione e il costo dell'esecuzione di query sull'intero set di dati.
Più scansioni di profilazione dei dati
Il catalogo universale Dataplex consente di creare più scansioni di profilazione dei dati contemporaneamente utilizzando la console Google Cloud . Puoi selezionare fino a 100 tabelle da un set di dati e creare una scansione di profilazione dei dati per ogni set di dati. Scopri di più.
Esporta i risultati della scansione in una tabella BigQuery
Puoi esportare i risultati della scansione del profilo dati in una tabella BigQuery per ulteriori analisi. Per personalizzare i report, puoi collegare i dati della tabella BigQuery a una dashboard Looker. Puoi creare un report aggregato utilizzando la stessa tabella dei risultati in più analisi.
Risultati della profilazione dei dati
I risultati della profilazione dei dati includono i seguenti valori:
Tipo di colonna | Risultati della profilazione dei dati |
---|---|
Colonna numerica |
|
Colonna stringa |
|
Altre colonne non nidificate (data, ora, timestamp, binario e così via) |
|
Tutte le altre colonne con tipi di dati nidificati o complessi (ad esempio Record, Array, JSON) o qualsiasi colonna con modalità ripetuta. |
|
I risultati includono il numero di record scansionati in ogni esecuzione.
Rapporti e monitoraggio
Puoi monitorare e analizzare i risultati della profilazione dei dati utilizzando i seguenti report e metodi:
Report pubblicati con la tabella di origine nelle pagine BigQuery e Catalogo universale Dataplex
Se hai configurato una scansione del profilo dati per pubblicare i risultati nelle pagine BigQuery e Dataplex Universal Catalog nella consoleGoogle Cloud , puoi visualizzare i risultati dell'ultima scansione del profilo dati in queste pagine nella scheda Profilo dati, da qualsiasi progetto.
Report storico per job in Dataplex Universal Catalog
Nella pagina Profilo di Dataplex Universal Catalog puoi visualizzare i report dettagliati per i job più recenti e storici. Sono incluse le informazioni del profilo a livello di colonna e la configurazione utilizzata.
Scheda Analisi
Nella pagina Profilo di Dataplex Universal Catalog, puoi utilizzare la scheda Analisi per visualizzare le tendenze di una determinata statistica di una colonna in più job di profilazione. Ad esempio, se hai una scansione incrementale, puoi vedere l'andamento della media di un valore nel tempo.
Creare una dashboard o un'analisi personalizzata
Se hai configurato una scansione di profilazione dei dati per esportare o salvare i risultati in una tabella BigQuery, puoi creare dashboard personalizzate utilizzando strumenti come Looker Studio.
Limitazioni
- La profilazione dei dati è supportata per le tabelle BigQuery con tutti i tipi di colonne, ad eccezione di
BIGNUMERIC
. Una scansione creata per una tabella con una colonnaBIGNUMERIC
genera un errore di convalida e non viene creata correttamente.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di elaborazione premium per addebitare la profilazione dei dati. Per ulteriori informazioni, vedi Prezzi.
L'elaborazione premium del Catalogo universale Dataplex per la profilazione dei dati viene fatturata al secondo con un minimo di un minuto.
Non ti viene addebitato alcun costo per le scansioni di profilazione non riuscite.
L'addebito dipende dal numero di righe, dal numero di colonne, dalla quantità di dati analizzati, dalle impostazioni di partizionamento e clustering della tabella e dalla frequenza della scansione.
Esistono diverse opzioni per ridurre il costo delle scansioni di profilazione dei dati:
- Campionamento
- Scansioni incrementali
- Filtro delle colonne
- Filtro delle righe
Per separare gli addebiti per la profilazione dei dati da altri addebiti nello SKU di elaborazione premium del Catalogo universale Dataplex, nel report di fatturazione Cloud, utilizza l'etichetta
goog-dataplex-workload-type
con il valoreDATA_PROFILE
.Per filtrare gli addebiti aggregati, utilizza le seguenti etichette:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Passaggi successivi
- Scopri come utilizzare la profilazione dei dati.
- Scopri di più sulla qualità dei dati automatica.
- Scopri come utilizzare la qualità dei dati automatica.
- Scopri come esplorare i dati generando insight.