Aggiungi una zona

Questo documento descrive cosa sono le zone di Dataplex Universal Catalog e come aggiungerle al tuo lake Dataplex Universal Catalog.

Panoramica

Le zone Dataplex Universal Catalog sono entità denominate all'interno di un lake Dataplex Universal Catalog. Si tratta di raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, costituiti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.

Un lago può includere una o più zone. Anche se una zona può far parte di un solo lake, potrebbe contenere asset che puntano a risorse che fanno parte di progetti al di fuori del progetto padre.

Puoi selezionare le configurazioni per una zona in Dataplex Universal Catalog. Esistono due tipi di zone tra cui scegliere: grezze e curate.

Zone non elaborate

Le zone non elaborate archiviano dati strutturati, dati semistrutturati come file CSV e file JSON e dati non strutturati in qualsiasi formato da fonti esterne. Le zone non elaborate sono utili per l'archiviazione temporanea dei dati non elaborati prima di eseguire qualsiasi trasformazione. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.

Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per le autorizzazioni di lettura e scrittura. Non esistono limitazioni al tipo di dati che possono essere archiviati nelle zone non elaborate.

Zone curate

Le zone curate archiviano dati strutturati. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.

I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Le zone curate sono utili per organizzare i dati che richiedono l'elaborazione prima di essere utilizzati per l'analisi o per pubblicare i dati pronti per l'analisi.

Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in una zona curata, i dati devono essere conformi allo schema definito per la tabella senza deriva dello schema. Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con lo schema della tabella.

Le zone curate supportano la granularità a livello di bucket Cloud Storage o di set di dati BigQuery per le autorizzazioni di lettura e scrittura.

Prima di iniziare

Prima di poter aggiungere zone a un lake, devi averne creato uno. Se non l'hai ancora fatto, crea un lago.

La maggior parte dei comandi gcloud lake richiede una posizione. Puoi specificare la posizione impostando il parametro --location.

Ruoli obbligatori

Per ottenere l'autorizzazione necessaria per aggiungere una zona, chiedi all'amministratore di concederti il ruolo IAM Amministratore Dataplex (roles/dataplex.admin) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene l'autorizzazione dataplex.lakes.create necessaria per aggiungere una zona.

Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.

Aggiungi una zona

Puoi aggiungere più zone al tuo lake. Puoi aggiungere una zona alla volta, ma puoi comunque utilizzare il lake mentre la zona viene creata.

Per aggiungere una zona a un lago esistente:

Console

  1. Nella Google Cloud console, vai a Dataplex Universal Catalog.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Nella visualizzazione Gestisci, fai clic sul nome del lake a cui vuoi aggiungere una zona.

  4. Nella scheda Zone, fai clic su Aggiungi zona.

  5. Inserisci un nome visualizzato per la zona.

  6. Fai clic sul menu Tipo. Scegli Zona non elaborata o Zona organizzata. Scopri di più sui tipi di zone supportate.

  7. (Facoltativo) Inserisci una descrizione.

  8. In Località dei dati, seleziona Regionale o Più regioni. La scelta effettuata non potrà essere modificata in un secondo momento. Non è possibile combinare dati a livello di una singola regione e di più regioni nella stessa zona.

  9. (Facoltativo) Attiva il rilevamento dei metadati, che consente al Catalogo universale Dataplex di analizzare ed estrarre automaticamente i metadati dai dati nella zona:

    1. Fai clic su Impostazioni di Discovery.

    2. Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.

    3. (Facoltativo) In Includi pattern, elenca i file da includere nelle scansioni di rilevamento.

    4. (Facoltativo) In Pattern di esclusione, elenca i file da escludere nelle scansioni di rilevamento. Se inserisci pattern di inclusione ed esclusione, quelli di esclusione vengono applicati per primi.

    5. Fai clic sul menu Ripetizioni e seleziona una frequenza. Se selezioni Personalizzato, nel campo Pianificazione, inserisci una pianificazione del job. In caso contrario, il valore Pianificazione viene compilato automaticamente.

    6. Fai clic sul menu Fuso orario e seleziona un fuso orario.

  10. Fai clic su Crea.

REST

Per aggiungere una zona, utilizza il metodo lakes.zones.create.

La creazione della zona potrebbe richiedere alcuni minuti.

Quando la creazione della zona va a buon fine, la zona entra automaticamente nello stato attivo. Se l'operazione non va a buon fine, il lake viene ripristinato allo stato precedente.

Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage e nei set di dati BigQuery come asset della zona. Per maggiori informazioni, vedi Aggiungere un asset.

Passaggi successivi