Proteggi il tuo lake

Questo documento descrive come proteggere e gestire l'accesso ai lake di Dataplex Universal Catalog.

Il modello di sicurezza di Dataplex Universal Catalog ti consente di gestire le autorizzazioni utente per le seguenti attività:

  • Amministrare un lake (creare e collegare asset, zone e lake aggiuntivi)
  • Accesso ai dati collegati a un lake tramite l'asset di mappatura (ad esempio, Google Cloud risorse come i bucket Cloud Storage e i set di dati BigQuery)
  • Accesso ai metadati relativi ai dati collegati a un lake

Un amministratore di un lake controlla l'accesso alle risorse del Catalogo universale Dataplex, come lake, zone e asset, concedendo i ruoli di base e predefiniti.

Ruoli di base

Ruolo Descrizione
Dataplex Viewer
(roles/dataplex.viewer)
Possibilità di visualizzare (ma non modificare) il lake e le relative zone e asset configurati.
Dataplex Editor
(roles/dataplex.editor)
Possibilità di modificare il lake. Può creare e configurare lake, zone, asset e attività.
Dataplex Administrator
(roles/dataplex.administrator)
Possibilità di amministrare completamente un lake.
Dataplex Developer
(roles/dataplex.developer)
Possibilità di eseguire workload di analisi dei dati su un lake. *
* Per eseguire query su una tabella BigQuery, devi disporre dell'autorizzazione per eseguire un job BigQuery. Imposta questa autorizzazione nel progetto a cui vuoi attribuire o addebitare la spesa per l'utilizzo di risorse di calcolo del job. Per ulteriori informazioni, consulta Ruoli e autorizzazioni predefiniti di BigQuery.
Per eseguire un job Spark, crea cluster Dataproc e invia job Dataproc nel progetto a cui vuoi attribuire il calcolo.

Ruoli predefiniti

Google Cloud gestisce i ruoli predefiniti che forniscono accesso granulare per Dataplex Universal Catalog.

Ruoli dei metadati

I ruoli dei metadati hanno la possibilità di visualizzare i metadati, ad esempio gli schemi delle tabelle.

Ruolo Descrizione
Dataplex Metadata Writer
(roles/dataplex.metadataWriter)
Possibilità di aggiornare i metadati di una determinata risorsa.
Dataplex Metadata Reader
(roles/dataplex.metadataReader)
Possibilità di leggere i metadati (ad esempio, per eseguire una query su una tabella).

Ruoli di dati

La concessione di ruoli dati a un'entità consente di leggere o scrivere dati nelle risorse sottostanti a cui fanno riferimento le risorse del lake.

Il Catalogo universale Dataplex mappa i propri ruoli ai ruoli dei dati per ogni risorsa di archiviazione sottostante, come Cloud Storage e BigQuery.

Dataplex Universal Catalog traduce e propaga i ruoli dei dati di Dataplex Universal Catalog alla risorsa di archiviazione sottostante, impostando i ruoli corretti per ogni risorsa di archiviazione. Puoi concedere un singolo ruolo dati di Dataplex Universal Catalog alla gerarchia del lake (ad esempio un lake) e Dataplex Universal Catalog gestisce l'accesso specificato ai dati su tutte le risorse collegate al lake (ad esempio, i bucket Cloud Storage e i set di dati BigQuery a cui fanno riferimento gli asset nelle zone sottostanti).

Ad esempio, concedere a un'entità il ruolo dataplex.dataWriter per un lake consente all'entità di accedere in scrittura a tutti i dati all'interno del lake, alle sue zone e ai suoi asset sottostanti. I ruoli di accesso ai dati concessi a un livello inferiore (zona) vengono ereditati nella gerarchia del lake agli asset sottostanti.

Ruolo Descrizione
Dataplex Data Reader
(roles/dataplex.dataReader)
Possibilità di leggere i dati dallo spazio di archiviazione collegato agli asset, inclusi i bucket di archiviazione e i set di dati BigQuery (e i relativi contenuti). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Possibilità di scrivere nelle risorse sottostanti a cui fa riferimento l'asset. *
Dataplex Data Owner
(roles/dataplex.dataOwner)
Concede il ruolo Proprietario alle risorse sottostanti, inclusa la possibilità di gestire le risorse figlio. Ad esempio, in qualità di proprietario dei dati di un set di dati BigQuery, puoi gestire le tabelle sottostanti.

Proteggi il tuo lake

Puoi proteggere e gestire l'accesso al tuo lake e ai dati associati. Nella Google Cloud console, utilizza una delle seguenti visualizzazioni:

  • Visualizzazione Gestisci del Catalogo universale Dataplex nella scheda Autorizzazioni
  • Visualizzazione Secure di Dataplex Universal Catalog

Utilizzo della visualizzazione Gestisci

La scheda Autorizzazioni ti consente di gestire tutte le autorizzazioni di una risorsa lake e presenta una visualizzazione non filtrata di tutte le autorizzazioni, incluse quelle ereditate.

Per proteggere il lago, segui questi passaggi:

  1. Nella Google Cloud console, vai a Dataplex Universal Catalog.

    Vai al Catalogo universale Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Fai clic sul nome del lago che hai creato.

  4. Fai clic sulla scheda Autorizzazioni.

  5. Fai clic sulla scheda Visualizza per ruolo.

  6. Fai clic su Aggiungi per aggiungere un nuovo ruolo. Aggiungi i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati.

  7. Verifica che i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati siano visualizzati.

Utilizzo della visualizzazione Sicuro

La visualizzazione Sicuro del Catalogo universale Dataplex nella Google Cloud console offre quanto segue:

  • Una vista filtrabile solo dei ruoli di Dataplex Universal Catalog centrati su una risorsa specifica
  • Separare i ruoli dei dati dai ruoli delle risorse del lake
Esempio di autorizzazioni dei dati che non vengono ereditate dalle risorse del lago di livello superiore
Figura 1: in questo esempio di data lake, entrambi i principali dispongono di autorizzazioni di accesso ai dati per la risorsa denominata Dati di Cloud Storage (dati GCS). Queste autorizzazioni non vengono ereditate dalle risorse del lake di livello superiore.


Esempio di autorizzazioni che non vengono ereditate dalle risorse del lago di livello superiore
Figura 2: questo esempio mostra:
  1. Un account di servizio che eredita il ruolo Amministratore Dataplex dal progetto.
  2. Entità (indirizzo email) che ereditano i ruoli Editor e Visualizzatore di Dataplex dal progetto. Questi sono i ruoli che si applicano a tutte le risorse.
  3. Un'entità (indirizzo email) che eredita il ruolo di amministratore Dataplex dal progetto.

Gestione dei criteri

Dopo aver specificato il criterio di sicurezza, Dataplex Universal Catalog propaga le autorizzazioni ai criteri IAM delle risorse gestite.

Il criterio di sicurezza configurato a livello di lake viene propagato a tutte le risorse gestite all'interno del lake. Dataplex Universal Catalog fornisce lo stato di propagazione e la visibilità di queste propagazioni su larga scala nella scheda Gestisci > Autorizzazioni di Dataplex Universal Catalog. Monitora continuamente le risorse gestite per verificare la presenza di eventuali modifiche ai criteri IAM al di fuori di Dataplex Universal Catalog.

Gli utenti che dispongono già delle autorizzazioni per una risorsa continuano a disporne dopo che la risorsa è stata collegata a un lago di Dataplex Universal Catalog. Analogamente, le associazioni di ruoli non Dataplex Universal Catalog create o aggiornate dopo l'attacco della risorsa a Dataplex Universal Catalog rimangono invariate.

Impostare criteri a livello di colonna, riga e tabella

Gli asset dei bucket Cloud Storage hanno associate tabelle esterne BigQuery.

Puoi eseguire l'upgrade di una risorsa bucket Cloud Storage, il che significa che il Catalogo universale Dataplex rimuove le tabelle esterne collegate e collega invece le tabelle BigLake.

Puoi utilizzare le tabelle BigLake anziché le tabelle esterne per avere controllo dell'accesso granulare, inclusi i controlli a livello di riga, i controlli a livello di colonna e il mascheramento dei dati delle colonne.

Sicurezza dei metadati

I metadati si riferiscono principalmente alle informazioni dello schema associate ai dati utente presenti nelle risorse gestite da un lake.

La funzionalità di rilevamento del catalogo universale Dataplex esamina i dati nelle risorse gestite ed estrae le informazioni sugli schemi tabulari. Queste tabelle vengono pubblicate nei sistemi BigQuery, Dataproc Metastore e Data Catalog (Ritirato).

BigQuery

Ogni tabella rilevata ha una tabella associata registrata in BigQuery. Per ogni zona è associato un set di dati BigQuery in cui sono registrate tutte le tabelle esterne associate alle tabelle rilevate nella zona di dati.

Le tabelle ospitate su Cloud Storage rilevate sono registrate nel set di dati creato per la zona.

Dataproc Metastore

I database e le tabelle vengono resi disponibili in Dataproc Metastore associato all'istanza del lake Dataplex Universal Catalog. Ogni zona dati ha un database associato e ogni asset può avere una o più tabelle associate.

I dati in un servizio Dataproc Metastore sono protetti configurando la rete VPC-SC. L'istanza Dataproc Metastore viene fornita a Dataplex Universal Catalog durante la creazione del lake, il che la rende già una risorsa gestita dall'utente.

Data Catalog

Ogni tabella scoperta ha una voce associata in Data Catalog (disponibile solo per i clienti in fase di transizione) per abilitare la ricerca e il rilevamento.

Data Catalog richiede i nomi dei criteri IAM durante la creazione delle voci. Pertanto, Dataplex Universal Catalog fornisce il nome del criterio IAM della risorsa asset di Dataplex Universal Catalog a cui deve essere associata la voce. Di conseguenza, le autorizzazioni per la voce del Catalogo universale Dataplex sono basate sulle autorizzazioni per la risorsa asset. Concedi il ruolo Dataplex Metadata Reader (roles/dataplex.metadataReader) e il ruolo Dataplex Metadata Writer (roles/dataplex.metadataWriter) alla risorsa asset.

Passaggi successivi