Questo documento descrive cosa sono le zone di Dataplex Universal Catalog e come aggiungerle al tuo lake Dataplex Universal Catalog.
Panoramica
Le zone Dataplex Universal Catalog sono entità denominate all'interno di un lake Dataplex Universal Catalog. Si tratta di raggruppamenti logici di dati non strutturati, semistrutturati e strutturati, costituiti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.
Un lago può includere una o più zone. Anche se una zona può far parte di un solo lake, potrebbe contenere asset che puntano a risorse che fanno parte di progetti al di fuori del progetto padre.
Puoi selezionare le configurazioni per una zona in Dataplex Universal Catalog. Esistono due tipi di zone tra cui scegliere: grezze e curate.
Zone non elaborate
Le zone non elaborate archiviano dati strutturati, dati semistrutturati come file CSV e file JSON e dati non strutturati in qualsiasi formato da fonti esterne. Le zone non elaborate sono utili per l'archiviazione temporanea dei dati non elaborati prima di eseguire qualsiasi trasformazione. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.
Le zone non elaborate supportano la granularità a livello di bucket o di set di dati per le autorizzazioni di lettura e scrittura. Non esistono limitazioni al tipo di dati che possono essere archiviati nelle zone non elaborate.
Zone curate
Le zone curate archiviano dati strutturati. I dati possono essere archiviati nei bucket Cloud Storage o nei set di dati BigQuery.
I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Le zone curate sono utili per organizzare i dati che richiedono l'elaborazione prima di essere utilizzati per l'analisi o per pubblicare i dati pronti per l'analisi.
Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in una zona curata, i dati devono essere conformi allo schema definito per la tabella senza deriva dello schema. Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con lo schema della tabella.
Le zone curate supportano la granularità a livello di bucket Cloud Storage o di set di dati BigQuery per le autorizzazioni di lettura e scrittura.
Prima di iniziare
Prima di poter aggiungere zone a un lake, devi averne creato uno. Se non l'hai ancora fatto, crea un lago.
La maggior parte dei comandi gcloud lake
richiede una posizione. Puoi specificare la posizione
impostando il parametro --location
.
Ruoli obbligatori
Per ottenere l'autorizzazione
necessaria per aggiungere una zona,
chiedi all'amministratore di concederti il
ruolo IAM Amministratore Dataplex (roles/dataplex.admin
)
nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene l'autorizzazione
dataplex.lakes.create
necessaria per
aggiungere una zona.
Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.
Aggiungi una zona
Puoi aggiungere più zone al tuo lake. Puoi aggiungere una zona alla volta, ma puoi comunque utilizzare il lake mentre la zona viene creata.
Per aggiungere una zona a un lago esistente:
Console
Nella Google Cloud console, vai a Dataplex Universal Catalog.
Vai alla visualizzazione Gestisci.
Nella visualizzazione Gestisci, fai clic sul nome del lake a cui vuoi aggiungere una zona.
Nella scheda Zone, fai clic su
Aggiungi zona.Inserisci un nome visualizzato per la zona.
Fai clic sul menu Tipo. Scegli Zona non elaborata o Zona organizzata. Scopri di più sui tipi di zone supportate.
(Facoltativo) Inserisci una descrizione.
In Località dei dati, seleziona Regionale o Più regioni. La scelta effettuata non potrà essere modificata in un secondo momento. Non è possibile combinare dati a livello di una singola regione e di più regioni nella stessa zona.
(Facoltativo) Attiva il rilevamento dei metadati, che consente al Catalogo universale Dataplex di analizzare ed estrarre automaticamente i metadati dai dati nella zona:
Fai clic su Impostazioni di Discovery.
Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.
(Facoltativo) In Includi pattern, elenca i file da includere nelle scansioni di rilevamento.
(Facoltativo) In Pattern di esclusione, elenca i file da escludere nelle scansioni di rilevamento. Se inserisci pattern di inclusione ed esclusione, quelli di esclusione vengono applicati per primi.
Fai clic sul menu Ripetizioni e seleziona una frequenza. Se selezioni Personalizzato, nel campo Pianificazione, inserisci una pianificazione del job. In caso contrario, il valore Pianificazione viene compilato automaticamente.
Fai clic sul menu Fuso orario e seleziona un fuso orario.
Fai clic su Crea.
REST
Per aggiungere una zona, utilizza il metodo lakes.zones.create.
La creazione della zona potrebbe richiedere alcuni minuti.
Quando la creazione della zona va a buon fine, la zona entra automaticamente nello stato attivo. Se l'operazione non va a buon fine, il lake viene ripristinato allo stato precedente.
Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage e nei set di dati BigQuery come asset della zona. Per maggiori informazioni, vedi Aggiungere un asset.
Passaggi successivi
- Scopri come gestire i bucket.
- Scopri come creare un lago.
- Scopri di più su Cloud Audit Logs.