Práticas recomendadas de segurança do Dataproc

Proteger seu ambiente do Dataproc é essencial para proteger dados sensíveis e evitar acesso não autorizado. Este documento descreve as principais práticas recomendadas para melhorar sua postura de segurança do Dataproc, incluindo recomendações para segurança de rede, Identity and Access Management, criptografia e configuração segura de cluster.

Segurança de rede

  • Implante o Dataproc em uma VPC particular. Crie uma nuvem privada virtual dedicada para seus clusters do Dataproc, isolando-os de outras redes e da Internet pública.

  • Usar IPs particulares. Para proteger seus clusters do Dataproc contra a exposição à Internet pública, use endereços IP particulares para aumentar a segurança e o isolamento.

  • Configure regras de firewall. Implemente regras de firewall rigorosas para controlar o tráfego de entrada e saída dos clusters do Dataproc. Permita apenas as portas e protocolos necessários.

  • Use o peering de rede. Para aumentar o isolamento, estabeleça o peering de rede VPC entre sua VPC do Dataproc e outras VPCs sensíveis para uma comunicação controlada.

  • Ative o gateway de componentes. Ative o Gateway de componentes do Dataproc ao criar clusters para acessar com segurança as interfaces do ecossistema Hadoop, como a UI do servidor YARN, HDFS ou Spark, em vez de abrir as portas do firewall.

Identity and Access Management

  • Isole as permissões. Use diferentes contas de serviço do plano de dados para clusters diferentes. Atribua às contas de serviço apenas as permissões que os clusters precisam para executar as cargas de trabalho.

  • Evite depender da conta de serviço padrão do Google Compute Engine (GCE). Não use a conta de serviço padrão para seus clusters.

  • Siga o princípio de privilégio mínimo. Conceda apenas as permissões mínimas necessárias às contas de serviço e aos usuários do Dataproc.

  • Aplicar o controle de acesso baseado em papéis (RBAC). Considere definir permissões do IAM para cada cluster.

  • Use funções personalizadas. Crie papéis personalizados do IAM refinados e adaptados a funções específicas no seu ambiente do Dataproc.

  • Revise regularmente. Audite regularmente as permissões e os papéis do IAM para identificar e remover privilégios excessivos ou não utilizados.

Criptografia

  • Criptografar dados em repouso. Para criptografia de dados em repouso, use o Cloud Key Management Service (KMS) ou chaves de criptografia gerenciadas pelo cliente (CMEK). Além disso, use políticas organizacionais para aplicar a criptografia de dados em repouso na criação de clusters.

  • Criptografar dados em trânsito. Ative o SSL/TLS para a comunicação entre os componentes do Dataproc (ativando o Modo seguro do Hadoop) e serviços externos. Isso protege os dados em movimento.

  • Cuidado com dados sensíveis. Tenha cuidado ao armazenar e transmitir dados sensíveis, como PII ou senhas. Quando necessário, use soluções de criptografia e gerenciamento de secrets.

Configuração segura do cluster

  • Autentique usando o Kerberos. Para evitar o acesso não autorizado aos recursos do cluster, implemente o modo seguro do Hadoop usando a autenticação Kerberos. Para mais informações, consulte Multilocação segura com o Kerberos.

  • Use uma senha raiz principal forte e um armazenamento seguro baseado no KMS. Para clusters que usam o Kerberos, o Dataproc configura automaticamente recursos de reforço de segurança para todos os componentes de código aberto em execução no cluster.

  • Ative o Login do SO. Ative o Login do SO para aumentar a segurança ao gerenciar nós do cluster usando SSH.

  • Separe os buckets de preparação e temporários no Google Cloud Storage (GCS). Para garantir o isolamento de permissões, separe os buckets de preparação e temporários de cada cluster do Dataproc.

  • Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger seus dados sensíveis, como chaves de API, senhas e certificados. Use-o para gerenciar, acessar e auditar seus secrets no Google Cloud.

  • Usar restrições organizacionais personalizadas. É possível usar uma política de organização personalizada para permitir ou negar operações específicas em clusters do Dataproc. Por exemplo, se uma solicitação para criar ou atualizar um cluster não atender à validação de restrição personalizada definida pela política da organização, a solicitação vai falhar e um erro será retornado ao autor da chamada.

A seguir

Saiba mais sobre outros recursos de segurança do Dataproc: