Proteggere l'ambiente Dataproc è fondamentale per proteggere i dati sensibili e impedire accessi non autorizzati. Questo documento descrive le best practice chiave per migliorare la postura di sicurezza di Dataproc, inclusi i suggerimenti per la sicurezza di rete, Identity and Access Management, la crittografia e la configurazione sicura del cluster.
Sicurezza della rete
Esegui il deployment di Dataproc in un VPC privato. Crea un Virtual Private Cloud dedicato per i tuoi cluster Dataproc, isolandoli da altre reti e da internet pubblico.
Utilizza IP privati. Per proteggere i cluster Dataproc dall'esposizione a internet pubblico, utilizza indirizzi IP privati per una maggiore sicurezza e isolamento.
Configura le regole firewall. Implementa regole firewall rigorose per controllare il traffico da e verso i cluster Dataproc. Consenti solo le porte e i protocolli necessari.
Utilizza il peering di rete. Per un isolamento avanzato, stabilisci il peering di rete VPC tra il tuo VPC Dataproc e altri VPC sensibili per una comunicazione controllata.
Attiva gateway dei componenti. Attiva il gateway dei componenti di Dataproc quando crei cluster per accedere in modo sicuro alle UI dell'ecosistema Hadoop, come le UI del server YARN, HDFS o Spark, anziché aprire le porte del firewall.
Identity and Access Management
Isola autorizzazioni. Utilizza account di servizio del data plane diversi per cluster diversi. Assegna ai service account solo le autorizzazioni necessarie ai cluster per eseguire i propri carichi di lavoro.
Evita di fare affidamento sull'account di servizio predefinito di Google Compute Engine (GCE). Non utilizzare l'account di servizio predefinito per i cluster.
Rispetta il principio del privilegio minimo. Concedi solo le autorizzazioni minime necessarie agli utenti e agli account di servizio Dataproc.
Applica controllo dell'accesso basato sui ruoli (RBAC). Valuta la possibilità di impostare le autorizzazioni IAM per ogni cluster.
Utilizzare ruoli personalizzati. Crea ruoli IAM personalizzati granulari adatti a mansioni specifiche all'interno del tuo ambiente Dataproc.
Rivedi regolarmente. Controlla regolarmente i ruoli e le autorizzazioni IAM per identificare e rimuovere eventuali privilegi eccessivi o inutilizzati.
Crittografia
Crittografare i dati inattivi. Per la crittografia dei dati inattivi, utilizza Cloud Key Management Service (KMS) o chiavi di crittografia gestite dal cliente (CMEK). Inoltre, utilizza i criteri dell'organizzazione per applicare la crittografia dei dati inattivi per la creazione del cluster.
Cripta i dati in transito. Attiva SSL/TLS per la comunicazione tra i componenti Dataproc (attivando la modalità sicura di Hadoop) e i servizi esterni. In questo modo i dati in transito sono protetti.
Fai attenzione ai dati sensibili. Presta attenzione quando memorizzi e trasmetti dati sensibili come PII o password. Se necessario, utilizza soluzioni di crittografia e gestione dei secret.
Configurazione sicura del cluster
Esegui l'autenticazione utilizzando Kerberos. Per impedire l'accesso non autorizzato alle risorse del cluster, implementa la modalità protetta di Hadoop utilizzando l'autenticazione Kerberos. Per maggiori informazioni, consulta Multitenancy sicura tramite Kerberos.
Utilizza una password dell'entità root efficace e un archivio sicuro basato su KMS. Per i cluster che utilizzano Kerberos, Dataproc configura automaticamente le funzionalità di protezione avanzata per tutti i componenti open source in esecuzione nel cluster.
Attiva OS Login. Attiva OS Login per una maggiore sicurezza durante la gestione dei nodi del cluster tramite SSH.
Separa i bucket temporanei e di gestione temporanea su Google Cloud Storage (GCS). Per garantire l'isolamento delle autorizzazioni, separa i bucket temporanei e di gestione temporanea per ogni cluster Dataproc.
Utilizza Secret Manager per archiviare le credenziali. Secret Manager può proteggere i tuoi dati sensibili, come chiavi API, password e certificati. Utilizzalo per gestire, accedere e controllare i tuoi secret in Google Cloud.
Utilizzare vincoli organizzativi personalizzati. Puoi utilizzare un criterio dell'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dalle norme della tua organizzazione, la richiesta non va a buon fine e viene restituito un errore al chiamante.
Passaggi successivi
Scopri di più sulle altre funzionalità di sicurezza di Dataproc:
- Multi-tenancy sicuro tramite service account
- Configura una Confidential VM con crittografia della memoria in linea
- Attiva un servizio di autorizzazione su ogni VM del cluster