Best practice per la sicurezza di Dataproc

Proteggere l'ambiente Dataproc è fondamentale per proteggere i dati sensibili e impedire accessi non autorizzati. Questo documento descrive le best practice chiave per migliorare la postura di sicurezza di Dataproc, inclusi i suggerimenti per la sicurezza di rete, Identity and Access Management, la crittografia e la configurazione sicura del cluster.

Sicurezza della rete

  • Esegui il deployment di Dataproc in un VPC privato. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e da internet pubblico.

  • Utilizza IP privati. Per proteggere i cluster Dataproc dall'esposizione a internet pubblico, utilizza indirizzi IP privati per una maggiore sicurezza e isolamento.

  • Configura le regole firewall. Implementa regole firewall rigorose per controllare il traffico da e verso i cluster Dataproc. Consenti solo le porte e i protocolli necessari.

  • Utilizza il peering di rete. Per un isolamento avanzato, stabilisci il peering di rete VPC tra il tuo VPC Dataproc e altri VPC sensibili per una comunicazione controllata.

  • Attiva gateway dei componenti. Attiva il gateway dei componenti di Dataproc quando crei cluster per accedere in modo sicuro alle UI dell'ecosistema Hadoop, come le UI del server YARN, HDFS o Spark, anziché aprire le porte del firewall.

Identity and Access Management

  • Isola autorizzazioni. Utilizza account di servizio del data plane diversi per cluster diversi. Assegna ai service account solo le autorizzazioni necessarie ai cluster per eseguire i propri carichi di lavoro.

  • Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE). Non utilizzare l'account di servizio predefinito per i cluster.

  • Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli utenti e agli account di servizio Dataproc.

  • Applica controllo dell'accesso basato sui ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster.

  • Utilizzare ruoli personalizzati. Crea ruoli IAM personalizzati granulari adatti a mansioni specifiche all'interno del tuo ambiente Dataproc.

  • Rivedi regolarmente. Controlla regolarmente i ruoli e le autorizzazioni IAM per identificare e rimuovere eventuali privilegi eccessivi o inutilizzati.

Crittografia

  • Crittografare i dati inattivi. Per la crittografia dei dati inattivi, utilizza Cloud Key Management Service (KMS) o chiavi di crittografia gestite dal cliente (CMEK). Inoltre, utilizza i criteri dell'organizzazione per applicare la crittografia dei dati inattivi per la creazione del cluster.

  • Cripta i dati in transito. Attiva SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità sicura di Hadoop) e i servizi esterni. In questo modo i dati in transito sono protetti.

  • Fai attenzione ai dati sensibili. Presta attenzione quando memorizzi e trasmetti dati sensibili come PII o password. Se necessario, utilizza soluzioni di crittografia e gestione dei secret.

Configurazione sicura del cluster

  • Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per maggiori informazioni, consulta Multitenancy sicura tramite Kerberos.

  • Utilizza una password dell'entità root efficace e un archivio sicuro basato su KMS. Per i cluster che utilizzano Kerberos, Dataproc configura automaticamente le funzionalità di protezione avanzata per tutti i componenti open source in esecuzione nel cluster.

  • Attiva OS Login. Attiva OS Login per una maggiore sicurezza durante la gestione dei nodi del cluster tramite SSH.

  • Separa i bucket temporanei e di gestione temporanea su Google Cloud Storage (GCS). Per garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e di gestione temporanea per ogni cluster Dataproc.

  • Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati. Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud.

  • Utilizzare vincoli organizzativi personalizzati. Puoi utilizzare un criterio dell'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dalle norme della tua organizzazione, la richiesta non va a buon fine e viene restituito un errore al chiamante.

Passaggi successivi

Scopri di più sulle altre funzionalità di sicurezza di Dataproc: