Creare un mesh di dati


Puoi utilizzare Dataplex Universal Catalog per creare un'architettura a mesh di dati. Questa guida mostra come utilizzare le funzionalità di Dataplex Universal Catalog, come lake, zone e asset, per creare un mesh di dati.

Un data mesh è un approccio organizzativo e tecnico che decentralizza la proprietà dei dati tra i proprietari dei dati del dominio. Questi proprietari forniscono i dati come prodotto in modo standard e facilitano la comunicazione tra le diverse parti dell'organizzazione per distribuire i set di dati in diverse località. Scopri di più sulle architetture data mesh.

Obiettivi

In questa guida, utilizzi le entità di Dataplex Universal Catalog per creare un'architettura a mesh di dati:

  • Crea un lake Dataplex Universal Catalog che funga da dominio per il tuo mesh di dati.
  • Aggiungi zone al tuo lake che rappresentano i singoli team all'interno di ogni dominio e fornisci contratti di dati gestiti.
  • Allega asset che mappano i dati archiviati in Cloud Storage.

Costi

In questo documento, utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi Google Cloud utenti potrebbero avere diritto a una prova gratuita.

Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per ulteriori informazioni, vedi Pulizia.

Prima di iniziare

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Abilita l'API Dataplex Universal Catalog.

    Abilita l'API Dataplex

  4. Crea un servizio Dataproc Metastore.

Crea un bucket Cloud Storage

Ti serve un bucket Cloud Storage per archiviare gli asset di dati del tuo data mesh.

Per creare un bucket Cloud Storage, segui le istruzioni riportate in Creare un bucket Cloud Storage. Quando lo fai, tieni presente quanto segue:

  • Assegna un nome al bucket.
  • In Tipo di località, scegli Regione e seleziona us-central1 (Iowa) dal menu.

Crea un dominio

  1. Nella Google Cloud console, vai alla pagina Dataplex Universal Catalog.

    Vai a Dataplex Universal Catalog

  2. Vai alla visualizzazione Gestisci.

  3. Fai clic su Crea per creare un nuovo lake, che funge da mesh di dati.

  4. Nel campo Nome visualizzato, inserisci My data mesh.

  5. In Regione, seleziona us-central1.

  6. Seleziona il servizio Dataproc Metastore che hai creato e configurato in precedenza come metastore associato.

  7. Fai clic su Crea.

Crea zone nel lake

Dopo aver creato un dominio creando un lake Dataplex Universal Catalog, puoi ospitare contratti di dati gestiti e singoli team all'interno del dominio utilizzando le zone. Esistono due tipi di zone:

  • Le zone non elaborate vengono in genere utilizzate per archiviare i dati in qualsiasi formato da origini esterne in Cloud Storage. Le zone non elaborate sono utili per i dati che richiedono un'ulteriore elaborazione prima di essere pronti per il consumo.

  • Le zone curate vengono utilizzate per i dati strutturati in Cloud Storage che devono essere conformi a determinati formati di file e sono organizzati in un layout di directory compatibile con Hive. Sono più utili per i dati pronti per il consumo e l'analisi.

Ogni dominio (ad esempio sales, customers, products) deve avere almeno una zona non elaborata e una zona curata.

Le zone aggiuntive vengono utilizzate per gestire i contratti di dati tra i team o per fornire una suddivisione più granulare per i team all'interno di un determinato dominio. Ad esempio, la gestione dell'inventario all'interno del dominio prodotto. I proprietari dei dati possono gestire i dati all'interno del proprio dominio e accedervi.

  1. Nella Google Cloud console, vai alla visualizzazione Gestisci di Dataplex Universal Catalog.

  2. Fai clic sul nome del lago (My data mesh) a cui vuoi aggiungere una zona.

  3. Nella scheda Zone, fai clic su Aggiungi zona.

  4. Nel campo Nome visualizzato, inserisci My sub domain. Dataplex Universal Catalog genera automaticamente un ID per la zona.

  5. Per Tipo, seleziona Zona non elaborata.

  6. Fai clic su Crea.

Collegare asset alle zone

Collega gli asset di dati alla zona. Un asset di dati, le risorse di archiviazione che contengono i tuoi dati, può essere un bucket Cloud Storage o un set di dati BigQuery. Questo è il passaggio finale per la creazione dell'architettura mesh di dati.

  1. Nella visualizzazione Gestisci di Dataplex Universal Catalog, fai clic sul lake che hai creato (My data mesh).

  2. Nella scheda Zone, fai clic sulla zona (My sub domain) a cui aggiungere l'asset.

  3. Nella scheda Asset, fai clic su Aggiungi asset.

  4. Fai clic su Aggiungi un asset.

  5. Per Tipo, seleziona Bucket Cloud Storage.

  6. Nel campo Nome visualizzato , inserisci Data mesh asset. Dataplex Universal Catalog genera automaticamente un ID risorsa.

  7. Nel campo Bucket, fai clic su Sfoglia.

    1. Seleziona il bucket dall'elenco.
    2. Fai clic su Seleziona.
  8. Fai clic su Fine e poi su Continua.

  9. Fai clic su Continua per accettare le impostazioni avanzate predefinite.

  10. Fai clic su Invia.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Elimina il progetto

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Eliminare l'architettura data mesh

  1. Nella Google Cloud console, vai alla visualizzazione Gestisci di Dataplex Universal Catalog.

  2. Per il lago che vuoi eliminare, fai clic su Mostra altro e poi su Elimina.

  3. Per confermare l'azione, inserisci delete e fai clic su Elimina lake.

Passaggi successivi