Proteggi il tuo lake

Questo documento descrive come proteggere e gestire l'accesso ai lake Dataplex Universal Catalog.

Il modello di sicurezza di Dataplex Universal Catalog consente di gestire le autorizzazioni utente per le seguenti attività:

  • Amministrazione di un lake (creazione e collegamento di asset, zone e lake aggiuntivi)
  • Accesso ai dati collegati a un lake tramite l'asset di mappatura (ad esempio, risorseGoogle Cloud , come bucket Cloud Storage e set di dati BigQuery)
  • Accedere ai metadati relativi ai dati connessi a un lake

Un amministratore di un lake controlla l'accesso alle risorse di Dataplex Universal Catalog, come lake, zona e asset, concedendo i ruoli di base e predefiniti.

Ruoli di base

Ruolo Descrizione
Dataplex Viewer
(roles/dataplex.viewer)
Possibilità di visualizzare (ma non modificare) il lake e le relative zone e asset configurati.
Dataplex Editor
(roles/dataplex.editor)
Possibilità di modificare il lake. Può creare e configurare lake, zone, asset e attività.
Dataplex Administrator
(roles/dataplex.administrator)
Possibilità di amministrare completamente un lake.
Dataplex Developer
(roles/dataplex.developer)
Possibilità di eseguire workload di analisi dei dati su un lake. *
* Per eseguire query su una tabella BigQuery, devi disporre dell'autorizzazione per eseguire un job BigQuery. Imposta questa autorizzazione nel progetto a cui vuoi attribuire o addebitare la spesa di calcolo del job. Per ulteriori informazioni, vedi Ruoli e autorizzazioni predefiniti di BigQuery.
Per eseguire un job Spark, crea cluster Dataproc e invia job Dataproc nel progetto a cui vuoi attribuire il calcolo.

Ruoli predefiniti

Google Cloud gestisce i ruoli predefiniti che forniscono un accesso granulare per Dataplex Universal Catalog.

Ruoli dei metadati

I ruoli dei metadati possono visualizzare i metadati, ad esempio gli schemi delle tabelle.

Ruolo Descrizione
Dataplex Metadata Writer
(roles/dataplex.metadataWriter)
Possibilità di aggiornare i metadati di una determinata risorsa.
Dataplex Metadata Reader
(roles/dataplex.metadataReader)
Possibilità di leggere i metadati (ad esempio, per eseguire una query su una tabella).

Ruoli dei dati

La concessione di ruoli per i dati a un'entità le consente di leggere o scrivere dati nelle risorse sottostanti indicate dagli asset del lake.

Dataplex Universal Catalog mappa i suoi ruoli ai ruoli dei dati per ogni risorsa di archiviazione sottostante, come Cloud Storage e BigQuery.

Dataplex Universal Catalog traduce e propaga i ruoli di dati di Dataplex Universal Catalog alla risorsa di archiviazione sottostante, impostando i ruoli corretti per ogni risorsa di archiviazione. Puoi concedere un singolo ruolo di dati Dataplex Universal Catalog nella gerarchia del lake (ad esempio un lake) e Dataplex Universal Catalog mantiene l'accesso specificato ai dati su tutte le risorse connesse a quel lake (ad esempio, i bucket Cloud Storage e i set di dati BigQuery sono indicati dagli asset nelle zone sottostanti).

Ad esempio, se concedi a un'entità il ruolo dataplex.dataWriter per un lake, l'entità ha accesso in scrittura a tutti i dati all'interno del lake, delle relative zone e dei relativi asset. I ruoli di accesso ai dati concessi a un livello inferiore (zona) vengono ereditati nella gerarchia del lake per gli asset sottostanti.

Ruolo Descrizione
Dataplex Data Reader
(roles/dataplex.dataReader)
Possibilità di leggere i dati dallo spazio di archiviazione collegato agli asset, inclusi i bucket di archiviazione e i set di dati BigQuery (e i relativi contenuti). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Possibilità di scrivere nelle risorse sottostanti a cui fa riferimento l'asset. *
Dataplex Data Owner
(roles/dataplex.dataOwner)
Concede il ruolo Proprietario alle risorse sottostanti, inclusa la possibilità di gestire le risorse figlio. Ad esempio, in qualità di proprietario dei dati di un set di dati BigQuery, puoi gestire le tabelle sottostanti.

Proteggi il tuo lake

Puoi proteggere e gestire l'accesso al tuo lake e ai dati allegati. Nella console Google Cloud , utilizza una delle seguenti visualizzazioni:

  • La visualizzazione Gestisci di Dataplex Universal Catalog nella scheda Autorizzazioni
  • Visualizzazione Sicura di Dataplex Universal Catalog

Utilizzo della visualizzazione Gestisci

La scheda Autorizzazioni consente di gestire tutte le autorizzazioni per una risorsa lake e presenta una visualizzazione non filtrata di tutte le autorizzazioni, incluse quelle ereditate.

Per proteggere il tuo lago, segui questi passaggi:

  1. Nella console Google Cloud , vai alla pagina Lake di Dataplex Universal Catalog.

    Vai a Laghi

  2. Fai clic sul nome del lake che hai creato.

  3. Fai clic sulla scheda Autorizzazioni.

  4. Fai clic sulla scheda Visualizza per ruoli.

  5. Fai clic su Aggiungi per aggiungere un nuovo ruolo. Aggiungi i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati.

  6. Verifica che vengano visualizzati i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati.

Utilizzo della visualizzazione Sicuro

La visualizzazione Sicuro di Dataplex Universal Catalog nella console Google Cloud fornisce quanto segue:

  • Una visualizzazione filtrabile solo dei ruoli Dataplex Universal Catalog incentrati su una risorsa specifica
  • Separare i ruoli dei dati dai ruoli delle risorse del lake
Esempio di autorizzazioni dei dati non ereditate da risorse del lake di livello superiore
Figura 1: in questo esempio di un lake, entrambi i principal dispongono delle autorizzazioni per i dati sull'asset denominato Dati di Cloud Storage (dati GCS). Queste autorizzazioni non vengono ereditate dalle risorse lake di livello superiore.


Esempio di autorizzazioni non ereditate da risorse del lago di livello superiore
Figura 2: questo esempio mostra:
  1. Un account di servizio che eredita il ruolo di amministratore Dataplex dal progetto.
  2. Entità (indirizzo email) che ereditano i ruoli Editor e Visualizzatore Dataplex dal progetto. Questi sono i ruoli che si applicano a tutte le risorse.
  3. Un'entità (indirizzo email) che eredita il ruolo di amministratore Dataplex dal progetto.

Gestione dei criteri

Dopo aver specificato la policy di sicurezza, Dataplex Universal Catalog propaga le autorizzazioni ai criteri IAM delle risorse gestite.

La policy di sicurezza configurata a livello di lake viene propagata a tutte le risorse gestite all'interno del lake. Dataplex Universal Catalog fornisce lo stato di propagazione e la visibilità di queste propagazioni su larga scala nella scheda Gestisci > Autorizzazioni di Dataplex Universal Catalog. Monitora continuamente le risorse gestite per rilevare eventuali modifiche ai criteri IAM al di fuori di Dataplex Universal Catalog.

Gli utenti che dispongono già delle autorizzazioni per una risorsa continuano a disporne dopo che una risorsa viene collegata a un lake Dataplex Universal Catalog. Allo stesso modo, i binding dei ruoli non Dataplex Universal Catalog creati o aggiornati dopo il collegamento della risorsa a Dataplex Universal Catalog rimangono invariati.

Imposta criteri a livello di colonna, riga e tabella

Gli asset dei bucket Cloud Storage hanno associate tabelle esterne BigQuery.

Puoi eseguire l'upgrade di un asset bucket Cloud Storage, il che significa che Dataplex Universal Catalog rimuove le tabelle esterne collegate e collega invece le tabelle BigLake.

Puoi utilizzare le tabelle BigLake anziché le tabelle esterne per ottenere controllo dell'accesso granulare, inclusi controlli a livello di riga, controlli a livello di colonna e mascheramento dei dati delle colonne.

Sicurezza dei metadati

I metadati si riferiscono principalmente alle informazioni sullo schema associate ai dati utente presenti nelle risorse gestite da un lake.

Dataplex Universal Catalog Discovery esamina i dati nelle risorse gestite ed estrae le informazioni sullo schema tabellare. Queste tabelle vengono pubblicate nei sistemi BigQuery, Dataproc Metastore e Data Catalog (ritirato).

BigQuery

A ogni tabella rilevata è associata una tabella registrata in BigQuery. Per ogni zona, esiste un set di dati BigQuery associato in cui sono registrate tutte le tabelle esterne associate alle tabelle rilevate in quella zona di dati.

Le tabelle ospitate in Cloud Storage rilevate vengono registrate nel set di dati creato per la zona.

Dataproc Metastore

I database e le tabelle vengono resi disponibili in Dataproc Metastore associato all'istanza del lake Dataplex Universal Catalog. Ogni zona dati ha un database associato e ogni asset può avere una o più tabelle associate.

I dati in un servizio Dataproc Metastore sono protetti configurando la rete VPC-SC. L'istanza Dataproc Metastore viene fornita a Dataplex Universal Catalog durante la creazione del lake, il che la rende già una risorsa gestita dall'utente.

Data Catalog

Ogni tabella rilevata ha una voce associata in Data Catalog (ritirato), per consentire la ricerca e l'individuazione.

Data Catalog richiede i nomi dei criteri IAM durante la creazione delle voci. Pertanto, Dataplex Universal Catalog fornisce il nome del criterio IAM della risorsa asset Dataplex Universal Catalog a cui deve essere associata la voce. Di conseguenza, le autorizzazioni per la voce Dataplex Universal Catalog sono determinate dalle autorizzazioni per la risorsa asset. Concedi il ruolo Lettore metadati Dataplex (roles/dataplex.metadataReader) e il ruolo Writer metadati Dataplex (roles/dataplex.metadataWriter) sulla risorsa asset.

Passaggi successivi