Dataplex Universal Catalog fornisce una piattaforma centrale per archiviare, gestire e accedere ai metadati. Questo documento descrive le funzionalità di gestione dei metadati di Dataplex Universal Catalog.
Dataplex Universal Catalog fornisce un inventario unificato delle risorse Google Cloud e on-premise. I metadati per le risorse Google Cloud vengono recuperati e archiviati automaticamente da Dataplex Universal Catalog. Puoi anche importare i tuoi metadati per risorse di terze parti in Dataplex Universal Catalog.
Puoi arricchire il tuo inventario con metadati aziendali e tecnici aggiuntivi che acquisiscono il contesto e le conoscenze sulle tue risorse. Puoi anche cercare e scoprire i tuoi dati in tutta l'organizzazione e attivare la governance dei tuoi asset di dati.
Puoi impostare l'esperienza predefinita del catalogo su Dataplex Universal Catalog. Se utilizzi Data Catalog, esegui la transizione dei contenuti e dell'utilizzo di Data Catalog autonomo a Dataplex Universal Catalog. Per saperne di più, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
Casi d'uso
Puoi utilizzare Dataplex Universal Catalog per:
Scopri e comprendi i tuoi dati. Dataplex Universal Catalog offre visibilità sulle risorse di dati in tutta l'organizzazione. Consente di trovare risorse pertinenti per le esigenze di consumo dei dati. Fornisce il contesto per le risorse di dati, il che ti aiuta a comprendere l'idoneità delle risorse di dati per le esigenze del tuo consumatore di dati.
Attiva la governance e la gestione dei dati. Dataplex Universal Catalog fornisce metadati che possono informare e potenziare le tue funzionalità di governance e gestione dei dati.
Mantenere un repository estensibile e completo per i metadati. Il Catalogo universale Dataplex archivia e fornisce l'accesso ai metadati raccolti automaticamente dalle tue risorse Google Cloud . Puoi integrare i tuoi metadati da sistemi nonGoogle Cloud . Puoi arricchire tutti i metadati con annotazioni aggiuntive di metadati tecnici e aziendali.
Come funziona la gestione dei metadati in Dataplex Universal Catalog
Le funzionalità di gestione dei metadati in Dataplex Universal Catalog si basano sui seguenti concetti:
Voce: una voce rappresenta una risorsa di dati. La maggior parte dei metadati è descritta dagli aspetti all'interno di una voce. È simile alle voci in Data Catalog. Per ulteriori informazioni, consulta la sezione Voci.
Aspetto: un aspetto è un insieme di campi di metadati correlati all'interno di una voce. Un aspetto può essere interpretato come un elemento di base di una voce o come metadati aggiuntivi. Questo è simile ai tag in Data Catalog, tuttavia gli aspetti vengono archiviati all'interno delle voci e non come risorse autonome. Per ulteriori informazioni, vedi Aspetti.
Tipo di aspetto: un tipo di aspetto è un modello riutilizzabile per gli aspetti. Ogni aspetto è un'istanza di un tipo di aspetto. È simile ai modelli di tag in Data Catalog. Per saperne di più, consulta Tipi di aspetti.
Gruppo di voci: un gruppo di voci è un contenitore di voci che funge da unità di gestione per queste voci. Ad esempio, utilizza un gruppo di voci per configurare il controllo dell'accesso Identity and Access Management, l'attribuzione del progetto o la posizione per le voci del gruppo. È simile ai gruppi di voci in Data Catalog. Per ulteriori informazioni, vedi Gruppi di voci.
Tipo di voce: un tipo di voce è un modello per la creazione di voci. Definisce gli elementi di metadati essenziali, descritti come un elenco di aspetti obbligatori per le voci di questo tipo. Per ulteriori informazioni, consulta la sezione Tipi di voci.
Figura 1. Voci e gruppi di voci Figura 2. Tipi di aspetti e tipi di voci
Di seguito sono riportati alcuni casi d'uso delle funzionalità di gestione dei metadati in Dataplex Universal Catalog:
- In qualità di analista dei dati o analista aziendale, puoi cercare voci in tutta l'organizzazione ed esplorare i metadati associati alle voci. Per maggiori informazioni, consulta Cercare asset di dati.
- In qualità di proprietario dei dati o responsabile della governance dei dati, puoi acquisire metadati tecnici e aziendali aggiuntivi annotando le voci con gli aspetti. Per saperne di più, vedi Gestire gli aspetti e arricchire i metadati. Per gestire i termini aziendali, vedi Gestire i glossari.
- In qualità di proprietario o responsabile dei dati, puoi garantire la coerenza dei metadati definendo gli standard per le annotazioni (utilizzando i tipi di aspetti), i glossari aziendali (utilizzando categorie e termini aziendali) e le voci personalizzate (utilizzando i tipi di voci). Per saperne di più, vedi Gestire gli aspetti e arricchire i metadati e Gestire i glossari aziendali.
- In qualità di data engineer, puoi avere un inventario unificato delle tue risorse, incluse le risorse Google Cloud e quelle di sistemi di terze parti. Le risorse Google Cloud vengono raccolte automaticamente da Dataplex Universal Catalog, mentre le risorse non Google Cloud vengono raccolte da te. Google Cloud Google Cloud Google Cloud Per saperne di più, consulta Gestire le voci e importare origini personalizzate.
Per gli utenti esistenti di Data Catalog
Se utilizzi già Data Catalog, tieni presente quanto segue:
- Le voci personalizzate, il contesto della panoramica, i glossari e i gruppi di voci che hai creato in Data Catalog vengono resi disponibili in Dataplex Universal Catalog.
- In qualità di amministratore, puoi scegliere di rendere disponibili contemporaneamente i contenuti dei tag e dei modelli di tag di Data Catalog in Dataplex Universal Catalog. Per saperne di più, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
- Quando cerchi asset di dati in Dataplex Universal Catalog, vengono inclusi sia i metadati creati direttamente in Dataplex Universal Catalog sia i metadati importati da Data Catalog in Dataplex Universal Catalog.
- Quando cerchi asset di dati in Data Catalog, vengono inclusi solo i metadati creati in Data Catalog.
- Le descrizioni dei gruppi di voci in Data Catalog che superano i 1024 caratteri vengono troncate a 1024 caratteri in Dataplex Universal Catalog.
- In qualità di amministratore, per rendere disponibili in Dataplex Universal Catalog i glossari e i link associati tra i termini aziendali e le colonne che hai creato in Data Catalog, segui la procedura di transizione.
Per saperne di più su come eseguire la transizione dei contenuti e dell'utilizzo di Data Catalog autonomo a Dataplex Universal Catalog, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
Dataplex Universal Catalog e Data Catalog
Dataplex Universal Catalog fornisce funzionalità integrate per gestire i metadati. L'archiviazione dei metadati e i metodi API sono integrati nell'API Dataplex.
Le principali funzionalità di gestione dei metadati in Dataplex Universal Catalog includono quanto segue:
Metamodello più solido
- Voci digitate. Puoi applicare standard minimi per i metadati definendo i contenuti dei metadati richiesti per le voci personalizzate.
- Metamodello configurabile dall'utente per le voci personalizzate, che contribuisce a rendere più solida l'importazione personalizzata e migliora la coerenza e la completezza dei metadati personalizzati.
- Supporto di una gamma più ampia e complessa di metadati, incluso il supporto per strutture di nidificazione come elenchi, mappe e array.
Scalabilità migliorata, inclusa la possibilità di interagire con tutti i metadati associati a una voce tramite singole operazioni CRUD atomiche e la possibilità di recuperare più annotazioni di metadati associate nelle risposte di ricerca o elenco.
La seguente tabella confronta le funzionalità di gestione dei metadati di Dataplex Universal Catalog e Data Catalog:
Funzionalità | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Origini Google Cloud supportate | Tutte le fonti descritte nella sezione Fonti Google Cloud supportate di questo documento. | Tutte le fonti descritte in Voci e gruppi di voci. |
Importazione di origini personalizzate | Importazione in voci personalizzate con struttura controllata, definita dai tipi di voce. Le voci e i gruppi di voci personalizzati di Data Catalog vengono resi disponibili in
Dataplex Universal Catalog con il tipo di voce | Inserimento in voci personalizzate generiche. |
Arricchimento dei metadati | Il contesto dei metadati per le voci viene acquisito utilizzando glossari aziendali, aspetti e tipi di aspetti. | Il contesto dei metadati per le voci viene acquisito utilizzando glossari aziendali, tag e modelli di tag. |
Cerca | La ricerca viene eseguita su:
I risultati di ricerca includono solo le risorse che appartengono alla stessa organizzazione e allo stesso perimetro dei controlli di servizio VPC del progetto in cui viene eseguita la ricerca. Quando utilizzi la console Google Cloud , questo è il progetto selezionato nella console. Tieni presente che, per cercare le voci, devi disporre di almeno uno dei seguenti ruoli IAM nel progetto utilizzato per la ricerca: Amministratore Dataplex Catalog, Editor Dataplex Catalog o Visualizzatore Dataplex Catalog. Le autorizzazioni sui risultati di ricerca vengono controllate indipendentemente dal progetto selezionato. |
La ricerca viene eseguita su:
|
Derivazione dei dati |
Data Lineage recupera i dettagli delle voci per i nodi degli asset utilizzando l'API Dataplex. La console Google Cloud mostra gli aspetti allegati. |
La derivazione dei dati recupera i dettagli delle voci per i nodi delle risorse utilizzando l'API Data Catalog. |
Glossari aziendali |
Il glossario aziendale ti consente di creare una tassonomia per i termini aziendali e di associarli ad asset e colonne di dati. Puoi utilizzare la ricerca per scoprire gli asset collegati a un termine. |
Il glossario aziendale ti consente di creare una tassonomia per i termini aziendali e associarli alle colonne. Puoi utilizzare la ricerca per scoprire le risorse collegate a un termine. |
La seguente tabella descrive la corrispondenza tra le risorse in Dataplex Universal Catalog e le risorse Data Catalog:
Risorsa Dataplex Universal Catalog | Risorsa Data Catalog | Descrizione |
---|---|---|
Tipo di aspetto (global ) |
Modello di tag pubblico | I modelli di tag sono risorse a livello di regione. Tuttavia, puoi utilizzarli per creare tag in tutte le regioni. I modelli di tag corrispondono ai tipi di aspetto global in Dataplex Universal Catalog. |
Aspetto facoltativo | Tag pubblico | I tag pubblici in Data Catalog corrispondono agli aspetti facoltativi in Dataplex Universal Catalog. |
Gruppo di voci | Gruppo di voci | Per le Google Cloud origini, i gruppi di voci di sistema come @bigquery
vengono stabiliti per progetto in Dataplex Universal Catalog. |
Aspetti obbligatori per le voci personalizzate | Voce personalizzata | Data Catalog e Dataplex Universal Catalog condividono concetti simili per le voci personalizzate. Le proprietà delle voci standard sono modellate come aspetti obbligatori in Dataplex Universal Catalog. |
Aspetti obbligatori per l'inserimento nel sistema | Voce Sistema (Google Cloud) | I metadati che descrivono le entità integrate, ad esempio Schema per le tabelle BigQuery, vengono acquisiti negli aspetti richiesti dei tipi di aspetti definiti dal sistema. |
Glossari aziendali | Glossari aziendali | Utilizza i glossari per creare una tassonomia dei termini aziendali standardizzando il contesto aziendale in tutta l'impresa. |
Per saperne di più sulle funzionalità disponibili in Data Catalog ma non supportate in Dataplex Universal Catalog, consulta la sezione Funzionalità di gestione dei metadati non supportate in Dataplex Universal Catalog di questo documento.
Origini supportate
- Rilevamento automatico dei dati di Cloud Storage
- I metadati delle seguenti origini Google Cloud vengono inseriti automaticamente
nel Catalogo universale Dataplex:
- Scambi e schede BigQuery sharing (in precedenza Analytics Hub)
- Set di dati, tabelle, modelli, routine, connessioni e set di dati collegati BigQuery
- Istanze, cluster e tabelle Bigtable (inclusi i dettagli delle famiglie di colonne)
- Repository Dataform e asset di codice
- Istanze, database, schemi, tabelle e viste Cloud SQL. Consulta Attivazione dell'integrazione di Cloud SQL
- Servizi, database e tabelle Dataproc Metastore
- Argomenti Pub/Sub
- Istanze, database, tabelle e viste Spanner
- Modelli, set di dati, gruppi di funzionalità, visualizzazioni delle funzionalità e istanze dello store online di Vertex AI
Per importare i metadati da una sorgente di terze parti in Dataplex Universal Catalog, puoi utilizzare una pipeline di connettività gestita.
Vincoli di progetto e località
Le risorse del catalogo in Dataplex Universal Catalog si trovano in vari progetti e località. Si applicano le seguenti limitazioni:
Località:
- La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere
global
. - Un aspetto aggiunto a una voce deve basarsi su un tipo di aspetto archiviato
nella stessa posizione della voce oppure il tipo di aspetto deve essere
global
. - Un tipo di voce deve essere composto da tipi di aspetto archiviati nella stessa posizione del tipo di voce.
- La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere
Progetto:
- Se un tipo di voce fa riferimento a tipi di aspetto personalizzato, questi devono trovarsi nella stessa posizione e nello stesso progetto del tipo di voce.
Funzionalità di gestione dei metadati non supportate in Dataplex Universal Catalog
Le seguenti funzionalità disponibili in Data Catalog non sono supportate in Dataplex Universal Catalog:
- Il concetto di aspetti privati e tipi di aspetti privati (controparti di tag privati e modelli di tag privati in Data Catalog) non esiste in Dataplex Universal Catalog.
- La ricerca di tag di criteri non è supportata nella ricerca di Dataplex Universal Catalog; di conseguenza, i predicati
policytag
epolicytagid
non funzionano nella ricerca di Dataplex Universal Catalog. - Quando importi in Dataplex Universal Catalog gruppi di voci personalizzati, voci personalizzate, modelli di tag e tag di Data Catalog, le autorizzazioni originali non vengono trasferite. Prima di utilizzarli, devi configurare in modo esplicito le autorizzazioni IAM per i metadati copiati.
- Il supporto di Terraform per la gestione di aspetti e voci personalizzate non è disponibile. In alternativa, puoi gestire i metadati personalizzati in modo programmatico su larga scala utilizzando una pipeline di connettività gestita o i metodi dell'API di importazione dei metadati. Il supporto di Terraform per gruppi di voci, tipi di voci e tipi di aspetto è disponibile. Consulta Provisioning delle risorse Dataplex Universal Catalog con Terraform.
- L'invio dei risultati dell'ispezione di Sensitive Data Protection direttamente al catalogo in Dataplex Universal Catalog non è supportato. In alternativa, puoi inviare i risultati dell'ispezione di Sensitive Data Protection a Data Catalog, e poi trasferire i risultati a Dataplex Universal Catalog.
- Non puoi elencare i tipi di voce e i tipi di aspetto tra i progetti utilizzando l'API. Puoi limitare la richiesta di elenco a un solo progetto.
- La registrazione di lake, zone, asset ed entità come voci di Dataplex Universal Catalog non è supportata. Ciò significa che i metadati di Data Catalog associati a lake, zone, asset ed entità non vengono trasferiti al catalogo in Dataplex Universal Catalog. Inoltre, quando utilizzi la ricerca in Dataplex Universal Catalog, la ricerca di zone ed entità non è supportata e il filtro per laghi e zone non è supportato. Puoi utilizzare lake e zone indipendentemente dal catalogo in Dataplex Universal Catalog.
- La ricerca dell'amministratore, che garantisce il recupero completo, non è supportata. In alternativa, puoi esportare i metadati in Cloud Storage e poi eseguirne query da BigQuery.
Per un confronto delle funzionalità e delle risorse supportate sia in Dataplex Universal Catalog che in Data Catalog, consulta la sezione Dataplex Universal Catalog e Data Catalog di questo documento.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di archiviazione dei metadati per addebitare l'archiviazione dei metadati. Per saperne di più, consulta la pagina Prezzi del Catalogo universale Dataplex.
Non sono previsti costi per l'utilizzo di quanto segue:
- Creazione e gestione delle risorse del catalogo in Dataplex Universal Catalog
- Chiamate API di ricerca per Dataplex Universal Catalog
- Query di ricerca eseguite nella pagina Dataplex Universal Catalog nella consoleGoogle Cloud
Passaggi successivi
- Scopri come cercare risorse in Dataplex Universal Catalog.
- Scopri come gestire le risorse e arricchire i metadati.
- Scopri come gestire le voci e importare origini personalizzate.
- Scopri di più sulla transizione da Data Catalog a Dataplex Universal Catalog.
- Scopri di più sulla transizione dei glossari a Dataplex Universal Catalog.