Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Das Sichern Ihrer Dataproc-Umgebung ist entscheidend, um vertrauliche Daten zu schützen und unbefugten Zugriff zu verhindern.
In diesem Dokument werden wichtige Best Practices zur Verbesserung der Dataproc-Sicherheit beschrieben, einschließlich Empfehlungen für Netzwerksicherheit, Identity and Access Management, Verschlüsselung und sichere Clusterkonfiguration.
Netzwerksicherheit
Dataproc in einer privaten VPC bereitstellen Erstellen Sie eine dedizierte Virtual Private Cloud für Ihre Dataproc-Cluster, um sie von anderen Netzwerken und dem öffentlichen Internet zu isolieren.
Private IP-Adressen verwenden. Um Ihre Dataproc-Cluster vor dem öffentlichen Internet zu schützen, verwenden Sie private IP-Adressen für mehr Sicherheit und Isolation.
Firewallregeln konfigurieren Implementieren Sie strenge Firewallregeln, um den Traffic zu und von Ihren Dataproc-Clustern zu steuern. Lassen Sie nur die erforderlichen Ports und Protokolle zu.
Netzwerk-Peering verwenden Für eine bessere Isolation können Sie VPC-Netzwerk-Peering zwischen Ihrer Dataproc-VPC und anderen sensiblen VPCs für eine kontrollierte Kommunikation einrichten.
Component Gateway aktivieren Aktivieren Sie das Dataproc Component Gateway, wenn Sie Cluster erstellen, um sicher auf UIs des Hadoop-Ökosystems wie die YARN-, HDFS- oder Spark-Server-UI zuzugreifen, anstatt die Firewallports zu öffnen.
Identity and Access Management
Berechtigungen isolieren: Verwenden Sie unterschiedliche Dienstkonten für die Datenebene für verschiedene Cluster. Weisen Sie Dienstkonten nur die Berechtigungen zu, die für die Ausführung der Arbeitslasten in Clustern erforderlich sind.
Verlassen Sie sich nicht auf das standardmäßige Dienstkonto von Google Compute Engine (GCE).
Verwenden Sie nicht das Standarddienstkonto für Ihre Cluster.
Rollenbasierte Zugriffssteuerung (Role-based Access Control, RBAC) erzwingen: Erwägen Sie, IAM-Berechtigungen für jeden Cluster festzulegen.
Benutzerdefinierte Rollen verwenden Erstellen Sie detaillierte benutzerdefinierte IAM-Rollen, die auf bestimmte Aufgaben in Ihrer Dataproc-Umgebung zugeschnitten sind.
Regelmäßig überprüfen: Prüfen Sie regelmäßig IAM-Berechtigungen und -Rollen, um übermäßige oder nicht verwendete Berechtigungen zu ermitteln und zu entfernen.
Verschlüsselung
Inaktive Daten verschlüsseln Verwenden Sie für die Verschlüsselung inaktiver Daten den Cloud Key Management Service (KMS) oder vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
Verwenden Sie außerdem Organisationsrichtlinien, um die Verschlüsselung inaktiver Daten beim Erstellen von Clustern zu erzwingen.
Daten während der Übertragung verschlüsseln Aktivieren Sie SSL/TLS für die Kommunikation zwischen Dataproc-Komponenten (durch Aktivieren des Hadoop-Sicherheitsmodus) und externen Diensten.
Dies schützt Daten bei der Übertragung.
Vorsicht bei sensiblen Daten: Seien Sie vorsichtig, wenn Sie sensible Daten wie personenidentifizierbare Informationen oder Passwörter speichern und weitergeben. Verwenden Sie bei Bedarf Verschlüsselungs- und Secrets-Management-Lösungen.
Clustersicherheit konfigurieren
Mit Kerberos authentifizieren Um unbefugten Zugriff auf Clusterressourcen zu verhindern, implementieren Sie den sicheren Modus von Hadoop mit der Kerberos-Authentifizierung. Weitere Informationen finden Sie unter Sichere Mehrmandantenfähigkeit durch Kerberos.
Starkes Hauptkennwort verwenden und KMS-basierten Speicher sichern: Bei Clustern, die Kerberos verwenden, konfiguriert Dataproc automatisch Sicherheitsfunktionen für alle Open-Source-Komponenten, die im Cluster ausgeführt werden.
Aktivieren Sie OS Login. Aktivieren Sie OS Login, um die Sicherheit beim Verwalten von Clusterknoten mit SSH zu erhöhen.
Staging- und temporäre Buckets in Google Cloud Storage (GCS) trennen: Um die Berechtigungen zu isolieren, sollten Sie Staging- und temporäre Buckets für jeden Dataproc-Cluster trennen.
Secret Manager zum Speichern von Anmeldedaten verwenden Mit Secret Manager können Sie Ihre sensiblen Daten wie API-Schlüssel, Passwörter und Zertifikate schützen.
Damit können Sie Ihre Secrets in Google Cloudverwalten, darauf zugreifen und sie prüfen.
Benutzerdefinierte Organisationseinschränkungen verwenden Mit einer benutzerdefinierten Organisationsrichtlinie können Sie bestimmte Vorgänge für Dataproc-Cluster zulassen oder ablehnen.
Wenn beispielsweise eine Anfrage zum Erstellen oder Aktualisieren eines Clusters die benutzerdefinierte Beschränkungsvalidierung, die durch Ihre Organisationsrichtlinie festgelegt wurde, nicht erfüllt, schlägt die Anfrage fehl und dem Aufrufer wird ein Fehler zurückgegeben.
Nächste Schritte
Weitere Informationen zu anderen Dataproc-Sicherheitsfunktionen:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eSecuring your Dataproc environment involves implementing best practices for network security, Identity and Access Management (IAM), encryption, and secure cluster configurations.\u003c/p\u003e\n"],["\u003cp\u003eNetwork security measures include deploying Dataproc in a private Virtual Private Cloud (VPC), using private IPs, configuring firewall rules, implementing VPC Network Peering, and enabling the Component Gateway.\u003c/p\u003e\n"],["\u003cp\u003eIdentity and Access Management practices include isolating permissions with separate service accounts, adhering to the principle of least privilege, enforcing role-based access control (RBAC), and regularly reviewing IAM permissions.\u003c/p\u003e\n"],["\u003cp\u003eEncryption involves encrypting data at rest using Cloud Key Management Service (KMS) or Customer Managed Encryption Keys (CMEK), encrypting data in transit with SSL/TLS, and using secure practices for sensitive data.\u003c/p\u003e\n"],["\u003cp\u003eSecure cluster configuration involves using Kerberos authentication, enabling OS Login, segregating staging and temp buckets on Google Cloud Storage (GCS), utilizing Secret Manager, and leveraging custom organizational constraints.\u003c/p\u003e\n"]]],[],null,["Securing your Dataproc environment is crucial for protecting\nsensitive data and preventing unauthorized access.\nThis document outlines key best practices to enhance your\nDataproc security posture, including recommendations for\nnetwork security, Identity and Access Management, encryption, and secure cluster configuration.\n\nNetwork security\n\n- **Deploy Dataproc in a private VPC** . Create a dedicated\n [Virtual Private Cloud](/vpc/docs/overview) for your Dataproc clusters,\n isolating them from other networks and the public internet.\n\n- **Use private IPs**. To protect your Dataproc clusters\n from exposure to the public internet, use private IP addresses\n for enhanced security and isolation.\n\n- **Configure firewall rules** . Implement strict [firewall rules](/firewall/docs/using-firewalls) to control traffic to and from your\n Dataproc clusters. Allow only necessary ports and protocols.\n\n- **Use network peering** . For enhanced isolation, establish\n [VPC Network Peering](/vpc/docs/vpc-peering) between your\n Dataproc VPC and other sensitive VPCs for controlled\n communication.\n\n- **Enable Component Gateway** . Enable the [Dataproc\n Component Gateway](/dataproc/docs/concepts/accessing/dataproc-gateways) when you\n create clusters to securely access Hadoop ecosystem UIs, such as like the YARN,\n HDFS, or Spark server UI, instead of opening the firewall ports.\n\nIdentity and Access Management\n\n- **Isolate permissions** . Use different [data plane service accounts](/dataproc/docs/concepts/configuring-clusters/service-accounts#VM_service_account)\n for different clusters. Assign to service accounts only the permissions\n that clusters need to run their workloads.\n\n- **Avoid relying on the Google Compute Engine (GCE) default service account** .\n Don't use the [default service account](/compute/docs/access/service-accounts#default_service_account) for your clusters.\n\n- **Adhere to the principle of least privilege** . Grant only the [minimum\n necessary permissions](/iam/docs/using-iam-securely#least_privilege) to\n Dataproc service accounts and users.\n\n- **Enforce role-based access control (RBAC)** . Consider setting [IAM permissions](/iam/docs/roles-overview) for each cluster.\n\n- **Use custom roles** . Create fine-grained [custom IAM roles](/iam/docs/creating-custom-roles) tailored to\n specific job functions within your Dataproc environment.\n\n- **Review regularly**. Regularly audit IAM permissions and roles to identify\n and remove any excessive or unused privileges.\n\nEncryption\n\n- **Encrypt data at rest** . For data encryption at rest, use the\n [Cloud Key Management Service](/kms/docs/key-management-service) (KMS) or\n [Customer Managed Encryption Keys](/dataproc/docs/concepts/configuring-clusters/customer-managed-encryption) (CMEK).\n Additionally, use organizational policies to enforce data encryption at rest\n for cluster creation.\n\n- **Encrypt data in transit** . Enable SSL/TLS for communication between\n Dataproc components (by enabling [Hadoop Secure Mode](/dataproc/docs/concepts/configuring-clusters/security)) and external services.\n This protects data in motion.\n\n- **Beware of sensitive data**. Exercise caution when storing and passing\n sensitive data like PII or passwords. Where required, use encryption and\n secrets management solutions.\n\nSecure cluster configuration\n\n- **Authenticate using Kerberos** . To prevent unauthorized access to cluster\n resources, implement Hadoop Secure Mode using [Kerberos](https://web.mit.edu/kerberos/#what_is) authentication. For\n more information, see [Secure multi-tenancy through Kerberos](/dataproc/docs/concepts/configuring-clusters/security).\n\n- **Use a strong root principal password and secure KMS-based storage**. For\n clusters that use Kerberos, Dataproc automatically configures\n security hardening features for all open source components running in the cluster.\n\n- **Enable OS login** . Enable [OS Login](/compute/docs/oslogin/set-up-oslogin)\n for added security when managing cluster nodes using SSH.\n\n- **Segregate staging and temp buckets on Google Cloud Storage (GCS)** . To\n ensure permission isolation, segregate [staging and temp buckets](/dataproc/docs/concepts/configuring-clusters/staging-bucket) for each\n Dataproc cluster.\n\n- **Use Secret Manager to store credentials** . The [Secret Manager](/dataproc/docs/guides/hadoop-google-secret-manager-credential-provider) can\n safeguard your sensitive data, such as your API keys, passwords, and certificates.\n Use it to manage, access, and audit your secrets across Google Cloud.\n\n- **Use custom organizational constraints** . You can use a [custom organization\n policy](/resource-manager/docs/organization-policy/overview#custom-organization-policies)\n to allow or deny specific operations on Dataproc clusters.\n For example, if a request to create or update a cluster fails to satisfy custom\n constraint validation as set by your organization policy, the request fails and\n an error is returned to the caller.\n\nWhat's next\n\nLearn more about other Dataproc security features:\n\n- [Secure multi-tenancy through service accounts](/dataproc/docs/concepts/iam/sa-multi-tenancy)\n- [Set up a Confidential VM with inline memory encryption](/dataproc/docs/concepts/configuring-clusters/confidential-compute)\n- [Activate an authorization service on each cluster VM](/dataproc/docs/concepts/configuring-clusters/ranger-plugin)"]]