Le attività di qualità dei dati di Dataplex Universal Catalog ti consentono di definire ed eseguire controlli di qualità dei dati nelle tabelle di BigQuery e Cloud Storage. Le attività di qualità dei dati di Dataplex Universal Catalog ti consentono inoltre di applicare controlli regolari dei dati negli ambienti BigQuery.
Quando creare attività di qualità dei dati di Dataplex Universal Catalog
Le attività di qualità dei dati di Dataplex Universal Catalog possono aiutarti a:
- Convalidare i dati come parte di una pipeline di produzione dei dati.
- Monitora regolarmente la qualità dei set di dati in base alle tue aspettative.
- Crea report sulla qualità dei dati per i requisiti normativi.
Vantaggi
- Specifiche personalizzabili. Puoi utilizzare la sintassi YAML estremamente flessibile per dichiarare le regole di qualità dei dati.
- Implementazione serverless. Dataplex Universal Catalog non richiede alcuna configurazione dell'infrastruttura.
- Zero-copy e pushdown automatico. I controlli YAML vengono convertiti in SQL e pushed in BigQuery, quindi non viene eseguita alcuna copia dei dati.
- Controlli della qualità dei dati pianificabili. Puoi pianificare i controlli di qualità dei dati tramite lo scheduler serverless in Dataplex Universal Catalog oppure utilizzare l'API Dataplex tramite programmatori esterni come Cloud Composer per l'integrazione della pipeline.
- Esperienza gestita. Il Catalogo universale Dataplex utilizza un motore di qualità dei dati open source, CloudDQ, per eseguire i controlli di qualità dei dati. Tuttavia, Dataplex Universal Catalog offre un'esperienza gestita senza interruzioni per eseguire i controlli della qualità dei dati.
Come funzionano le attività relative alla qualità dei dati
Il seguente diagramma mostra il funzionamento delle attività di qualità dei dati di Dataplex Universal Catalog:
- Contributi degli utenti
- Specifica YAML: un insieme di uno o più file YAML che definiscono le regole di qualità dei dati in base alla sintassi della specifica. Archivi i file YAML in un bucket Cloud Storage nel tuo progetto. Gli utenti possono eseguire più regole contemporaneamente e queste regole possono essere applicate a diverse tabelle BigQuery, tra cui tabelle di set di dati o progetti diversi. Google CloudLa specifica supporta le esecuzioni incrementali solo per la convalida dei nuovi dati. Per creare una specifica YAML, consulta Creare un file di specifiche.
- Tabella dei risultati di BigQuery: una tabella specificata dall'utente in cui vengono memorizzati i risultati della convalida della qualità dei dati. Il Google Cloud progetto in cui si trova questa tabella può essere un progetto diverso da quello in cui viene utilizzata la tâche di qualità dei dati di Dataplex Universal Catalog.
- Tabelle da convalidare
- All'interno della specifica YAML, devi specificare le tabelle da convalidare per quali regole, nota anche come associazione di regole. Le tabelle possono essere tabelle native BigQuery o tabelle esterne BigQuery in Cloud Storage. La specifica YAML consente di specificare le tabelle all'interno o all'esterno di una zona del Catalogo universale Dataplex.
- Le tabelle BigQuery e Cloud Storage convalidate in un'unica esecuzione possono appartenere a progetti diversi.
- Attività di qualità dei dati del Catalogo universale Dataplex: un'attività di qualità dei dati del Catalogo universale Dataplex è configurata con un file binario PySpark CloudDQ precompilato e gestito e prende come input la specifica YAML e la tabella dei risultati BigQuery. Come le altre attività di Dataplex Universal Catalog, l'attività di qualità dei dati di Dataplex Universal Catalog viene eseguita in un ambiente Spark senza server, converte la specifica YAML in query BigQuery e poi le esegue sulle tabelle definite nel file delle specifiche.
Prezzi
Quando esegui attività di qualità dei dati del Catalogo universale Dataplex, ti vengono addebitati i costi per l'utilizzo di BigQuery e Dataproc Serverless (batch).
L'attività di qualità dei dati del Catalogo universale Dataplex converte il file di specifiche in query BigQuery ed esegue queste ultime nel progetto dell'utente. Consulta Prezzi di BigQuery.
Il Catalogo universale Dataplex utilizza Spark per eseguire il programma del driver CloudDQ open source precompilato e gestito da Google per convertire le specifiche dell'utente in query BigQuery. Consulta i prezzi di Dataproc Serverless.
Non sono previsti costi per l'utilizzo di Dataplex Universal Catalog per organizzare i dati o per l'utilizzo dello scheduler serverless in Dataplex Universal Catalog per pianificare i controlli di qualità dei dati. Consulta Prezzi di Dataplex Universal Catalog.