Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Proteger seu ambiente do Dataproc é essencial para proteger dados sensíveis e evitar acesso não autorizado.
Este documento descreve as principais práticas recomendadas para melhorar sua postura de segurança do Dataproc, incluindo recomendações para segurança de rede, gerenciamento de identidade e acesso, criptografia e configuração segura de cluster.
Segurança de rede
Implante o Dataproc em uma VPC particular. Crie uma nuvem privada virtual dedicada para seus clusters do Dataproc, isolando-os de outras redes e da Internet pública.
Usar IPs particulares. Para proteger seus clusters do Dataproc contra a exposição à Internet pública, use endereços IP particulares para aumentar a segurança e o isolamento.
Configure regras de firewall. Implemente regras de firewall rigorosas para controlar o tráfego de entrada e saída dos clusters do Dataproc. Permita apenas as portas e protocolos necessários.
Use o peering de rede. Para aumentar o isolamento, estabeleça o peering de rede VPC entre sua VPC do Dataproc e outras VPCs sensíveis para uma comunicação controlada.
Ative o gateway de componentes. Ative o Gateway de componentes do Dataproc ao criar clusters para acessar com segurança as interfaces do ecossistema Hadoop, como a interface do servidor YARN, HDFS ou Spark, em vez de abrir as portas do firewall.
Identity and Access Management
Isole as permissões. Use diferentes contas de serviço do plano de dados para clusters diferentes. Atribua às contas de serviço apenas as permissões
que os clusters precisam para executar as cargas de trabalho.
Evite depender da conta de serviço padrão do Google Compute Engine (GCE).
Não use a conta de serviço padrão para seus clusters.
Siga o princípio de privilégio mínimo. Conceda apenas as permissões mínimas necessárias às contas de serviço e aos usuários do Dataproc.
Aplicar o controle de acesso baseado em papéis (RBAC). Considere definir permissões do IAM para cada cluster.
Use funções personalizadas. Crie papéis personalizados do IAM refinados e adaptados a
funções específicas no seu ambiente do Dataproc.
Revise regularmente. Audite regularmente as permissões e os papéis do IAM para identificar
e remover privilégios excessivos ou não utilizados.
Criptografar dados em trânsito. Ative o SSL/TLS para a comunicação entre os componentes do Dataproc (ativando o modo seguro do Hadoop) e serviços externos.
Isso protege os dados em movimento.
Cuidado com dados sensíveis. Tenha cuidado ao armazenar e transmitir
dados sensíveis, como PII ou senhas. Quando necessário, use soluções de criptografia e gerenciamento de secrets.
Configuração segura do cluster
Autentique usando o Kerberos. Para evitar o acesso não autorizado aos recursos do cluster, implemente o modo seguro do Hadoop usando a autenticação Kerberos. Para mais informações, consulte Multilocação segura com o Kerberos.
Use uma senha raiz principal forte e um armazenamento seguro baseado no KMS. Para clusters que usam o Kerberos, o Dataproc configura automaticamente recursos de reforço de segurança para todos os componentes de código aberto em execução no cluster.
Ative o Login do SO. Ative o Login do SO
para aumentar a segurança ao gerenciar nós do cluster usando SSH.
Separe os buckets temporários e de preparação no Google Cloud Storage (GCS). Para garantir o isolamento de permissões, separe os buckets de preparação e temporários de cada cluster do Dataproc.
Use o Secret Manager para armazenar credenciais. O Secret Manager pode proteger seus dados sensíveis, como chaves de API, senhas e certificados.
Use-o para gerenciar, acessar e auditar seus secrets no Google Cloud.
Use restrições organizacionais personalizadas. É possível usar uma política personalizada da organização para permitir ou negar operações específicas em clusters do Dataproc.
Por exemplo, quando uma solicitação de criação ou atualização de um cluster não atende à validação de restrição personalizada definida pela política da organização, ela falha e um erro é retornado ao autor da chamada.
A seguir
Saiba mais sobre outros recursos de segurança do Dataproc:
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[[["\u003cp\u003eSecuring your Dataproc environment involves implementing best practices for network security, Identity and Access Management (IAM), encryption, and secure cluster configurations.\u003c/p\u003e\n"],["\u003cp\u003eNetwork security measures include deploying Dataproc in a private Virtual Private Cloud (VPC), using private IPs, configuring firewall rules, implementing VPC Network Peering, and enabling the Component Gateway.\u003c/p\u003e\n"],["\u003cp\u003eIdentity and Access Management practices include isolating permissions with separate service accounts, adhering to the principle of least privilege, enforcing role-based access control (RBAC), and regularly reviewing IAM permissions.\u003c/p\u003e\n"],["\u003cp\u003eEncryption involves encrypting data at rest using Cloud Key Management Service (KMS) or Customer Managed Encryption Keys (CMEK), encrypting data in transit with SSL/TLS, and using secure practices for sensitive data.\u003c/p\u003e\n"],["\u003cp\u003eSecure cluster configuration involves using Kerberos authentication, enabling OS Login, segregating staging and temp buckets on Google Cloud Storage (GCS), utilizing Secret Manager, and leveraging custom organizational constraints.\u003c/p\u003e\n"]]],[],null,["Securing your Dataproc environment is crucial for protecting\nsensitive data and preventing unauthorized access.\nThis document outlines key best practices to enhance your\nDataproc security posture, including recommendations for\nnetwork security, Identity and Access Management, encryption, and secure cluster configuration.\n\nNetwork security\n\n- **Deploy Dataproc in a private VPC** . Create a dedicated\n [Virtual Private Cloud](/vpc/docs/overview) for your Dataproc clusters,\n isolating them from other networks and the public internet.\n\n- **Use private IPs**. To protect your Dataproc clusters\n from exposure to the public internet, use private IP addresses\n for enhanced security and isolation.\n\n- **Configure firewall rules** . Implement strict [firewall rules](/firewall/docs/using-firewalls) to control traffic to and from your\n Dataproc clusters. Allow only necessary ports and protocols.\n\n- **Use network peering** . For enhanced isolation, establish\n [VPC Network Peering](/vpc/docs/vpc-peering) between your\n Dataproc VPC and other sensitive VPCs for controlled\n communication.\n\n- **Enable Component Gateway** . Enable the [Dataproc\n Component Gateway](/dataproc/docs/concepts/accessing/dataproc-gateways) when you\n create clusters to securely access Hadoop ecosystem UIs, such as like the YARN,\n HDFS, or Spark server UI, instead of opening the firewall ports.\n\nIdentity and Access Management\n\n- **Isolate permissions** . Use different [data plane service accounts](/dataproc/docs/concepts/configuring-clusters/service-accounts#VM_service_account)\n for different clusters. Assign to service accounts only the permissions\n that clusters need to run their workloads.\n\n- **Avoid relying on the Google Compute Engine (GCE) default service account** .\n Don't use the [default service account](/compute/docs/access/service-accounts#default_service_account) for your clusters.\n\n- **Adhere to the principle of least privilege** . Grant only the [minimum\n necessary permissions](/iam/docs/using-iam-securely#least_privilege) to\n Dataproc service accounts and users.\n\n- **Enforce role-based access control (RBAC)** . Consider setting [IAM permissions](/iam/docs/roles-overview) for each cluster.\n\n- **Use custom roles** . Create fine-grained [custom IAM roles](/iam/docs/creating-custom-roles) tailored to\n specific job functions within your Dataproc environment.\n\n- **Review regularly**. Regularly audit IAM permissions and roles to identify\n and remove any excessive or unused privileges.\n\nEncryption\n\n- **Encrypt data at rest** . For data encryption at rest, use the\n [Cloud Key Management Service](/kms/docs/key-management-service) (KMS) or\n [Customer Managed Encryption Keys](/dataproc/docs/concepts/configuring-clusters/customer-managed-encryption) (CMEK).\n Additionally, use organizational policies to enforce data encryption at rest\n for cluster creation.\n\n- **Encrypt data in transit** . Enable SSL/TLS for communication between\n Dataproc components (by enabling [Hadoop Secure Mode](/dataproc/docs/concepts/configuring-clusters/security)) and external services.\n This protects data in motion.\n\n- **Beware of sensitive data**. Exercise caution when storing and passing\n sensitive data like PII or passwords. Where required, use encryption and\n secrets management solutions.\n\nSecure cluster configuration\n\n- **Authenticate using Kerberos** . To prevent unauthorized access to cluster\n resources, implement Hadoop Secure Mode using [Kerberos](https://web.mit.edu/kerberos/#what_is) authentication. For\n more information, see [Secure multi-tenancy through Kerberos](/dataproc/docs/concepts/configuring-clusters/security).\n\n- **Use a strong root principal password and secure KMS-based storage**. For\n clusters that use Kerberos, Dataproc automatically configures\n security hardening features for all open source components running in the cluster.\n\n- **Enable OS login** . Enable [OS Login](/compute/docs/oslogin/set-up-oslogin)\n for added security when managing cluster nodes using SSH.\n\n- **Segregate staging and temp buckets on Google Cloud Storage (GCS)** . To\n ensure permission isolation, segregate [staging and temp buckets](/dataproc/docs/concepts/configuring-clusters/staging-bucket) for each\n Dataproc cluster.\n\n- **Use Secret Manager to store credentials** . The [Secret Manager](/dataproc/docs/guides/hadoop-google-secret-manager-credential-provider) can\n safeguard your sensitive data, such as your API keys, passwords, and certificates.\n Use it to manage, access, and audit your secrets across Google Cloud.\n\n- **Use custom organizational constraints** . You can use a [custom organization\n policy](/resource-manager/docs/organization-policy/overview#custom-organization-policies)\n to allow or deny specific operations on Dataproc clusters.\n For example, if a request to create or update a cluster fails to satisfy custom\n constraint validation as set by your organization policy, the request fails and\n an error is returned to the caller.\n\nWhat's next\n\nLearn more about other Dataproc security features:\n\n- [Secure multi-tenancy through service accounts](/dataproc/docs/concepts/iam/sa-multi-tenancy)\n- [Set up a Confidential VM with inline memory encryption](/dataproc/docs/concepts/configuring-clusters/confidential-compute)\n- [Activate an authorization service on each cluster VM](/dataproc/docs/concepts/configuring-clusters/ranger-plugin)"]]