Best Practices für die Sicherheit von Dataproc

Das Sichern Ihrer Dataproc-Umgebung ist entscheidend, um vertrauliche Daten zu schützen und unbefugten Zugriff zu verhindern. In diesem Dokument werden wichtige Best Practices zur Verbesserung der Dataproc-Sicherheit beschrieben, einschließlich Empfehlungen für Netzwerksicherheit, Identity and Access Management, Verschlüsselung und sichere Clusterkonfiguration.

Netzwerksicherheit

  • Dataproc in einer privaten VPC bereitstellen Erstellen Sie eine dedizierte Virtual Private Cloud für Ihre Dataproc-Cluster, um sie von anderen Netzwerken und dem öffentlichen Internet zu isolieren.

  • Private IP-Adressen verwenden. Um Ihre Dataproc-Cluster vor dem öffentlichen Internet zu schützen, verwenden Sie private IP-Adressen für mehr Sicherheit und Isolation.

  • Firewallregeln konfigurieren Implementieren Sie strenge Firewallregeln, um den Traffic zu und von Ihren Dataproc-Clustern zu steuern. Lassen Sie nur die erforderlichen Ports und Protokolle zu.

  • Netzwerk-Peering verwenden Für eine bessere Isolation können Sie VPC-Netzwerk-Peering zwischen Ihrer Dataproc-VPC und anderen sensiblen VPCs für eine kontrollierte Kommunikation einrichten.

  • Component Gateway aktivieren Aktivieren Sie das Dataproc Component Gateway, wenn Sie Cluster erstellen, um sicher auf UIs des Hadoop-Ökosystems wie die YARN-, HDFS- oder Spark-Server-UI zuzugreifen, anstatt die Firewallports zu öffnen.

Identity and Access Management

  • Berechtigungen isolieren: Verwenden Sie unterschiedliche Dienstkonten für die Datenebene für verschiedene Cluster. Weisen Sie Dienstkonten nur die Berechtigungen zu, die für die Ausführung der Arbeitslasten in Clustern erforderlich sind.

  • Nicht auf das Google Compute Engine-Standarddienstkonto (GCE) verlassen Verwenden Sie nicht das Standarddienstkonto für Ihre Cluster.

  • Prinzip der geringsten Berechtigung einhalten: Gewähren Sie Dataproc-Dienstkonten und ‑Nutzern nur die erforderlichen Mindestberechtigungen.

  • Rollenbasierte Zugriffssteuerung (Role-based Access Control, RBAC) erzwingen: Erwägen Sie, IAM-Berechtigungen für jeden Cluster festzulegen.

  • Benutzerdefinierte Rollen verwenden Erstellen Sie detaillierte benutzerdefinierte IAM-Rollen, die auf bestimmte Aufgaben in Ihrer Dataproc-Umgebung zugeschnitten sind.

  • Regelmäßig überprüfen: Prüfen Sie regelmäßig IAM-Berechtigungen und -Rollen, um übermäßige oder nicht verwendete Berechtigungen zu ermitteln und zu entfernen.

Verschlüsselung

  • Inaktive Daten verschlüsseln Verwenden Sie für die Verschlüsselung inaktiver Daten den Cloud Key Management Service (KMS) oder vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK). Verwenden Sie außerdem Organisationsrichtlinien, um die Verschlüsselung inaktiver Daten beim Erstellen von Clustern zu erzwingen.

  • Daten während der Übertragung verschlüsseln Aktivieren Sie SSL/TLS für die Kommunikation zwischen Dataproc-Komponenten (durch Aktivieren des Hadoop-Sicherheitsmodus) und externen Diensten. Dies schützt Daten bei der Übertragung.

  • Vorsicht bei sensiblen Daten: Seien Sie vorsichtig, wenn Sie sensible Daten wie personenidentifizierbare Informationen oder Passwörter speichern und weitergeben. Verwenden Sie bei Bedarf Lösungen für die Verschlüsselung und das Secrets-Management.

Clustersicherheit konfigurieren

  • Mit Kerberos authentifizieren Um unbefugten Zugriff auf Clusterressourcen zu verhindern, implementieren Sie den sicheren Modus von Hadoop mit der Kerberos-Authentifizierung. Weitere Informationen finden Sie unter Sichere Mehrmandantenfähigkeit durch Kerberos.

  • Verwenden Sie ein starkes Hauptkennwort und sichern Sie den KMS-basierten Speicher. Bei Clustern, die Kerberos verwenden, konfiguriert Dataproc automatisch Sicherheitsfunktionen für alle Open-Source-Komponenten, die im Cluster ausgeführt werden.

  • Aktivieren Sie OS Login. Aktivieren Sie OS Login, um die Sicherheit beim Verwalten von Clusterknoten mit SSH zu erhöhen.

  • Staging- und temporäre Buckets in Google Cloud Storage (GCS) trennen: Um die Berechtigungsisolation zu gewährleisten, sollten Sie Staging- und temporäre Buckets für jeden Dataproc-Cluster trennen.

  • Anmeldedaten mit Secret Manager speichern Mit Secret Manager können Sie Ihre sensiblen Daten wie API-Schlüssel, Passwörter und Zertifikate schützen. Damit können Sie Ihre Secrets in Google Cloudverwalten, darauf zugreifen und sie prüfen.

  • Benutzerdefinierte Organisationseinschränkungen verwenden Sie können eine benutzerdefinierte Organisationsrichtlinie verwenden, um bestimmte Vorgänge für Dataproc-Cluster zuzulassen oder zu verweigern. Wenn beispielsweise eine Anfrage zum Erstellen oder Aktualisieren eines Clusters die benutzerdefinierte Einschränkungsvalidierung, die durch die Organisationsrichtlinie festgelegt wurde, nicht erfüllt, schlägt die Anfrage fehl und es wird ein Fehler an den Aufrufer zurückgegeben.

Nächste Schritte

Weitere Informationen zu anderen Dataproc-Sicherheitsfunktionen: