Dataplex Universal Catalog fornisce una piattaforma centrale per archiviare, gestire e accedere ai metadati. Questo documento descrive le funzionalità di gestione dei metadati di Dataplex Universal Catalog.
Dataplex Universal Catalog fornisce un inventario unificato delle risorse Google Cloud e on-premise. I metadati per le risorse Google Cloud vengono recuperati e archiviati automaticamente da Dataplex Universal Catalog. Puoi anche importare i tuoi metadati per risorse di terze parti in Dataplex Universal Catalog.
Puoi arricchire il tuo inventario con metadati tecnici e aziendali aggiuntivi che acquisiscono il contesto e le conoscenze sulle tue risorse. Puoi anche cercare e scoprire i tuoi dati in tutta l'organizzazione e attivare la governance dei dati sui tuoi asset di dati.
Puoi impostare l'esperienza predefinita del catalogo su Dataplex Universal Catalog. Se utilizzi Data Catalog, esegui la transizione dei contenuti e dell'utilizzo di Data Catalog autonomo a Dataplex Universal Catalog. Per maggiori informazioni, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
Come funziona la gestione dei metadati
Le funzionalità di gestione dei metadati in Dataplex Universal Catalog si basano sui seguenti concetti:
- Voce
Una voce rappresenta un asset di dati. È simile alle voci in Data Catalog.
Esempio: una tabella BigQuery denominata
test-project.sales_data.customer_orders
è rappresentata come una voce.Una colonna di una voce rappresenta una sezione specifica di un asset di dati, ad esempio una singola colonna in una tabella BigQuery o un campo in un file JSON. Le colonne consentono di collegare i metadati a singoli campi all'interno di una voce, non solo alla voce nel suo complesso. Non definisci le colonne direttamente, ma vengono create quando colleghi un aspetto di tipo
schema
a una voce. Le colonne sono chiamate anche percorsi.Esempio: per descrivere il campo
email_address
all'interno della vocecustomer_orders
come contenente informazioni che consentono l'identificazione personale (PII), puoi collegare un aspetto alla colonnaemail_address
.Per saperne di più sulle voci, consulta Voci.
- Aspetto
Un aspetto è un insieme di campi di metadati correlati. Puoi allegare un aspetto a una voce per descriverla nel suo complesso. La maggior parte dei metadati è descritta dagli aspetti all'interno di una voce. È simile ai tag in Data Catalog. Tuttavia, gli aspetti vengono memorizzati all'interno delle voci e non come risorse autonome.
Esempio: per definire tutte le colonne della voce
customer_orders
, comeorder_id
,order_date
eemail_address
, puoi collegare un aspettoschema
alla vocecustomer_orders
. Per specificare che la colonnaemail_address
contiene un indirizzo email, puoi collegare un aspettoschema
alla colonnaemail_address
.Per saperne di più sugli aspetti, consulta Aspetti.
- Tipo di voce
Un tipo di voce è un modello per la creazione di voci. Definisce gli elementi di metadati essenziali, descritti come un elenco di aspetti obbligatori per le voci di questo tipo. Un tipo di voce specifica quali tipi di aspetto sono obbligatori per una risorsa dati specifica.
Esempio: per assicurarti che tutte le voci abbiano i metadati richiesti, puoi creare un tipo di voce chiamato
StandardOperationalTable
che richiede l'allegato di un aspettoOwnerInfo
a qualsiasi nuova voce di questo tipo.Per saperne di più sui tipi di voci, consulta Tipi di voci.
- Tipo di aspetto
Un tipo di aspetto è un modello riutilizzabile per gli aspetti. Ogni aspetto è un'istanza di un tipo di aspetto. È simile ai modelli di tag in Data Catalog.
Esempio: per definire un modello riutilizzabile per i dati di contatto, puoi definire un tipo di aspetto denominato
ContactInfo
con campi perowner_name
,email
esupport_team
. Dopodiché, puoi creareContactInfo
da questo modello e allegarli a voci o colonne.Per saperne di più sui tipi di aspetto, vedi Tipi di aspetto.
- Gruppo di voci
Un gruppo di voci è un contenitore di voci che funge da unità di gestione per queste voci. Ad esempio, utilizza un gruppo di voci per configurare il controllo dell'accesso Identity and Access Management, l'attribuzione del progetto o la posizione delle voci nel gruppo. È simile ai gruppi di voci in Data Catalog.
Esempio: un team finanziario vuole gestire le autorizzazioni per tutte le tabelle contemporaneamente. Può creare un gruppo di voci denominato
production_finance_data
e includervi le voci per la tabellacustomer_orders
, la tabellaquarterly_revenue
e la tabellaemployee_salaries
.Per saperne di più sui gruppi di voci, vedi Gruppi di voci.
Figura 1. Voci e gruppi di voci Figura 2. Tipi di aspetti e tipi di voci
Dataplex Universal Catalog e Data Catalog
Dataplex Universal Catalog fornisce funzionalità integrate per gestire i metadati. L'archiviazione dei metadati e i metodi API sono integrati nell'API Dataplex.
Le principali funzionalità di gestione dei metadati in Dataplex Universal Catalog includono quanto segue:
Metamodello più solido
- Voci digitate. Puoi applicare standard minimi per i metadati definendo i contenuti dei metadati richiesti per le voci personalizzate.
- Metamodello configurabile dall'utente per le voci personalizzate, che contribuisce a rendere più solida l'importazione personalizzata e migliora la coerenza e la completezza dei metadati personalizzati.
- Supporto di una gamma più ampia e complessa di metadati, incluso il supporto per strutture di nidificazione come elenchi, mappe e array.
Scalabilità migliorata, inclusa la possibilità di interagire con tutti i metadati associati a una voce tramite singole operazioni CRUD atomiche e la possibilità di recuperare più annotazioni di metadati associate nelle risposte di ricerca o elenco.
La seguente tabella confronta le funzionalità di gestione dei metadati di Dataplex Universal Catalog e Data Catalog:
Funzionalità | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Origini Google Cloud supportate | Tutte le fonti descritte nella sezione Fonti Google Cloud supportate di questo documento. | Tutte le fonti descritte in Voci e gruppi di voci. |
Importazione di origini personalizzate | Importazione in voci personalizzate con struttura controllata, definita dai tipi di voce. Le voci e i gruppi di voci personalizzati di Data Catalog vengono resi disponibili in
Dataplex Universal Catalog con il tipo di voce | Inserimento in voci personalizzate generiche. |
Arricchimento dei metadati | Il contesto dei metadati per le voci viene acquisito utilizzando glossari aziendali, aspetti e tipi di aspetti. | Il contesto dei metadati per le voci viene acquisito utilizzando glossari aziendali, tag e modelli di tag. |
Cerca | La ricerca viene eseguita su quanto segue:
I risultati di ricerca includono solo le risorse che appartengono alla stessa organizzazione e allo stesso perimetro VPC-SC del progetto in cui viene eseguita la ricerca. Quando utilizzi la console Google Cloud , questo è il progetto selezionato nella console. Tieni presente che, per cercare le voci, devi disporre di almeno uno dei seguenti ruoli IAM nel progetto utilizzato per la ricerca: Amministratore Dataplex Catalog, Editor Dataplex Catalog o Visualizzatore Dataplex Catalog. Le autorizzazioni sui risultati di ricerca vengono controllate indipendentemente dal progetto selezionato. |
La ricerca viene eseguita su quanto segue:
|
Derivazione dei dati |
Data Lineage recupera i dettagli delle voci per i nodi degli asset utilizzando l'API Dataplex. La console Google Cloud mostra gli aspetti allegati. |
La derivazione dei dati recupera i dettagli delle voci per i nodi delle risorse utilizzando l'API Data Catalog. |
Glossari aziendali |
Il glossario aziendale ti consente di creare una tassonomia per i termini aziendali e di associarli ad asset e colonne di dati. Puoi utilizzare la ricerca per scoprire gli asset collegati a un termine. |
Il glossario aziendale ti consente di creare una tassonomia per i termini aziendali e associarli alle colonne. Puoi utilizzare la ricerca per scoprire le risorse collegate a un termine. |
La seguente tabella descrive la corrispondenza tra le risorse in Dataplex Universal Catalog e le risorse Data Catalog:
Risorsa Dataplex Universal Catalog | Risorsa Data Catalog | Descrizione |
---|---|---|
Tipo di aspetto (global ) |
Modello di tag pubblico | I modelli di tag sono risorse a livello di regione. Tuttavia, puoi utilizzarli per creare
tag in più regioni. I modelli di tag corrispondono ai tipi di aspetto global in Dataplex Universal Catalog. |
Aspetto facoltativo | Tag pubblico | I tag pubblici in Data Catalog corrispondono agli aspetti facoltativi in Dataplex Universal Catalog. |
Gruppo di voci | Gruppo di voci | Per le origini Google Cloud , i gruppi di voci di sistema come @bigquery
vengono stabiliti per progetto in Dataplex Universal Catalog. |
Aspetti obbligatori per le voci personalizzate | Voce personalizzata | Data Catalog e Dataplex Universal Catalog condividono concetti simili per le voci personalizzate. Le proprietà delle voci standard sono modellate come aspetti obbligatori in Dataplex Universal Catalog. |
Aspetti obbligatori per l'inserimento nel sistema | Voce Sistema (Google Cloud) | I metadati che descrivono le entità integrate, ad esempio Schema per le tabelle BigQuery, vengono acquisiti negli aspetti obbligatori dei tipi di aspetti definiti dal sistema. |
Glossari aziendali | Glossari aziendali | Utilizza i glossari per creare una tassonomia dei termini aziendali standardizzando il contesto aziendale in tutta l'impresa. |
Per saperne di più sulle funzionalità disponibili in Data Catalog, ma non supportate in Dataplex Universal Catalog, consulta la sezione Funzionalità di gestione dei metadati non supportate in Dataplex Universal Catalog in questo documento.
Per gli utenti esistenti di Data Catalog
Se utilizzi già Data Catalog, tieni presente quanto segue:
- Le voci personalizzate, il contesto della panoramica, i glossari e i gruppi di voci che hai creato in Data Catalog vengono resi disponibili in Dataplex Universal Catalog.
- In qualità di amministratore, puoi scegliere di rendere disponibili contemporaneamente i contenuti dei tag e dei modelli di tag di Data Catalog in Dataplex Universal Catalog. Per saperne di più, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
- Quando cerchi asset di dati in Dataplex Universal Catalog, vengono inclusi sia i metadati creati direttamente in Dataplex Universal Catalog sia i metadati importati da Data Catalog in Dataplex Universal Catalog.
- Quando cerchi asset di dati in Data Catalog, vengono inclusi solo i metadati creati in Data Catalog.
- Le descrizioni dei gruppi di voci in Data Catalog che superano i 1024 caratteri vengono troncate a 1024 caratteri in Dataplex Universal Catalog.
- In qualità di amministratore, per rendere disponibili in Dataplex Universal Catalog i glossari e i link associati tra i termini aziendali e le colonne che hai creato in Data Catalog, segui la procedura di transizione.
Per saperne di più su come eseguire la transizione dei contenuti e dell'utilizzo di Data Catalog autonomo a Dataplex Universal Catalog, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
Origini supportate
- Rilevamento automatico dei dati di Cloud Storage
- I metadati delle seguenti origini Google Cloud vengono inseriti automaticamente
nel Catalogo universale Dataplex:
- Scambi e schede BigQuery sharing (in precedenza Analytics Hub)
- Set di dati, tabelle, modelli, routine, connessioni e set di dati collegati BigQuery
- Istanze, cluster e tabelle Bigtable (inclusi i dettagli delle famiglie di colonne)
- Repository Dataform e asset di codice
- Istanze, database, schemi, tabelle e viste Cloud SQL. Consulta Attivazione dell'integrazione di Cloud SQL
- Servizi, database e tabelle Dataproc Metastore
- Argomenti Pub/Sub
- Istanze, database, tabelle e viste Spanner
- Modelli, set di dati, gruppi di funzionalità, visualizzazioni delle funzionalità e istanze dello store online Vertex AI
Per importare i metadati da una sorgente di terze parti in Dataplex Universal Catalog, puoi utilizzare una pipeline di connettività gestita.
Vincoli di progetto e località
Le risorse del catalogo in Dataplex Universal Catalog sono ospitate in vari progetti e località. Si applicano le seguenti limitazioni:
Località:
- La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere
global
. - Un aspetto aggiunto a una voce deve essere basato su un tipo di aspetto archiviato
nella stessa posizione della voce oppure il tipo di aspetto deve essere
global
. - Un tipo di voce deve essere composto da tipi di aspetto archiviati nella stessa posizione del tipo di voce.
- La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere
Progetto:
- Se un tipo di voce fa riferimento a tipi di aspetto personalizzato, questi devono trovarsi nella stessa posizione e nello stesso progetto del tipo di voce.
Funzionalità di gestione dei metadati non supportate in Dataplex Universal Catalog
Le seguenti funzionalità disponibili in Data Catalog non sono supportate in Dataplex Universal Catalog:
- Il concetto di aspetti privati e tipi di aspetti privati (controparti dei tag privati e dei modelli di tag privati in Data Catalog) non esiste in Dataplex Universal Catalog.
- La ricerca di tag di criteri non è supportata nella ricerca di Dataplex Universal Catalog; di conseguenza, i predicati
policytag
epolicytagid
non funzionano nella ricerca di Dataplex Universal Catalog. - Quando importi in Dataplex Universal Catalog gruppi di voci personalizzati, voci personalizzate, modelli di tag e tag di Data Catalog, le autorizzazioni originali non vengono trasferite. Prima di utilizzarli, devi configurare in modo esplicito le autorizzazioni IAM per i metadati copiati.
- Il supporto di Terraform per la gestione di aspetti e voci personalizzate non è disponibile. Puoi invece gestire in modo programmatico i metadati personalizzati su larga scala utilizzando una pipeline di connettività gestita o i metodi dell'API di importazione dei metadati. Il supporto di Terraform per gruppi di voci, tipi di voci e tipi di aspetto è disponibile. Consulta Provisioning delle risorse Dataplex Universal Catalog con Terraform.
- L'invio dei risultati dell'ispezione di Sensitive Data Protection direttamente al catalogo in Dataplex Universal Catalog non è supportato. In alternativa, puoi inviare i risultati dell'ispezione di Sensitive Data Protection a Data Catalog, e poi trasferire i risultati a Dataplex Universal Catalog.
- Non puoi elencare i tipi di voce e i tipi di aspetto tra i progetti utilizzando l'API. Puoi limitare la richiesta di elenco a un solo progetto.
- La registrazione di lake, zone, asset ed entità come voci di Dataplex Universal Catalog non è supportata. Ciò significa che i metadati di Data Catalog allegati a lake, zone, asset ed entità non vengono trasferiti al catalogo in Dataplex Universal Catalog. Inoltre, quando utilizzi la ricerca in Dataplex Universal Catalog, la ricerca di zone ed entità non è supportata e il filtro per lake e zone non è supportato. Puoi utilizzare lake e zone indipendentemente dal catalogo in Dataplex Universal Catalog.
- La ricerca dell'amministratore, che garantisce il recupero completo, non è supportata. In alternativa, puoi esportare i metadati in Cloud Storage e poi eseguirne query da BigQuery.
Per un confronto delle funzionalità e delle risorse supportate sia in Dataplex Universal Catalog che in Data Catalog, consulta la sezione Dataplex Universal Catalog e Data Catalog di questo documento.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di archiviazione dei metadati per addebitare i costi di archiviazione dei metadati. Per saperne di più, consulta la pagina Prezzi del Catalogo universale Dataplex.
Non sono previsti costi per l'utilizzo di quanto segue:
- Creazione e gestione delle risorse del catalogo in Dataplex Universal Catalog
- Chiamate API di ricerca per Dataplex Universal Catalog
- Query di ricerca eseguite nella pagina Dataplex Universal Catalog nella consoleGoogle Cloud
Passaggi successivi
- Scopri come cercare risorse in Dataplex Universal Catalog.
- Scopri come gestire le risorse e arricchire i metadati.
- Scopri come gestire le voci e importare origini personalizzate.
- Scopri di più sulla transizione da Data Catalog a Dataplex Universal Catalog.
- Scopri di più sulla transizione dei glossari a Dataplex Universal Catalog.