Best practice per la sicurezza di Dataproc

La protezione dell'ambiente Dataproc è fondamentale per proteggere i dati sensibili e impedire accessi non autorizzati. Questo documento illustra le best practice principali per migliorare la postura di sicurezza di Dataproc, inclusi consigli per la sicurezza di rete, la gestione delle identità e degli accessi, la crittografia e la configurazione sicura del cluster.

Sicurezza della rete

  • Esegui il deployment di Dataproc in una VPC privata. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e dalla rete internet pubblica.

  • Utilizza IP privati. Per proteggere i tuoi cluster Dataproc dall'esposizione a internet pubblico, utilizza indirizzi IP privati per una maggiore sicurezza e isolamento.

  • Configura le regole del firewall. Implementa regole firewall rigorose per controllare il traffico da e verso i tuoi cluster Dataproc. Consenti solo le porte e i protocolli necessari.

  • Utilizza il peering di rete. Per un isolamento maggiore, stabilisci un peering di rete VPC tra la VPC Dataproc e altre VPC sensibili per una comunicazione controllata.

  • Attiva Gateway dei componenti. Attiva il gateway dei componenti di Dataproc quando crei cluster per accedere in sicurezza alle UI dell'ecosistema Hadoop, come l'UI di YARN, HDFS o del server Spark, anziché aprire le porte del firewall.

Identity and Access Management

  • Isola le autorizzazioni. Utilizza account di servizio del piano dati diversi per cluster diversi. Assegna agli account di servizio solo le autorizzazioni di cui i cluster hanno bisogno per eseguire i loro carichi di lavoro.

  • Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE). Non utilizzare l'account di servizio predefinito per i cluster.

  • Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli account di servizio e agli utenti Dataproc.

  • Applicare il controllo degli accessi basato sui ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster.

  • Utilizza i ruoli personalizzati. Crea ruoli IAM personalizzati granulari personalizzati per funzioni di job specifiche all'interno del tuo ambiente Dataproc.

  • Esamina regolarmente. Controlla regolarmente le autorizzazioni e i ruoli IAM per identificare e rimuovere eventuali privilegi eccessivi o inutilizzati.

Crittografia

  • Crittografare i dati at-rest. Per la crittografia dei dati a riposo, utilizza Cloud Key Management Service (KMS) o le chiavi di crittografia gestite dal cliente (CMEK). Inoltre, utilizza i criteri dell'organizzazione per applicare la crittografia dei dati at rest per la creazione del cluster.

  • Crittografa i dati in transito. Attiva SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità sicura Hadoop) e i servizi esterni. In questo modo i dati in transito sono protetti.

  • Fai attenzione ai dati sensibili. Presta attenzione quando memorizzi e trasmetti dati sensibili come PII o password. Se necessario, utilizza soluzioni di crittografia e gestione dei segreti.

Configurazione sicura del cluster

  • Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per maggiori informazioni, consulta Multitenancy sicura tramite Kerberos.

  • Utilizza una password dell'entità principale radice complessa e uno spazio di archiviazione basato su KMS sicuro. Per i cluster che utilizzano Kerberos, Dataproc configura automaticamente le funzionalità di rafforzamento della sicurezza per tutti i componenti open source in esecuzione nel cluster.

  • Attiva OS Login. Attiva OS Login per una maggiore sicurezza durante la gestione dei nodi del cluster tramite SSH.

  • Separa i bucket di staging e temporanei su Google Cloud Storage (GCS). Per garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e di gestione temporanea per ogni cluster Dataproc.

  • Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati. Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud.

  • Utilizza vincoli organizzativi personalizzati. Puoi utilizzare un criterio per l'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dalle norme della tua organizzazione, la richiesta non va a buon fine e viene restituito un errore all'autore della chiamata.

Passaggi successivi

Scopri di più sulle altre funzionalità di sicurezza di Dataproc: