Dataproc-Cluster-Netzwerk mit Private Service Connect

Auf dieser Seite finden Sie eine Anleitung zum Konfigurieren der Netzwerkverbindung für Dataproc-Cluster bei Verwendung von Private Service Connect. Darin wird die Interaktion zwischen Private Service Connect und VPC-Peering (Virtual Private Cloud) für verschiedene Dataproc-Anwendungsfälle erläutert. Außerdem werden die Ähnlichkeiten und Unterschiede zwischen den Funktionen von privater Google-Zugriff, Private Service Connect und Cloud NAT zusammengefasst.

Übersicht

Dataproc-Cluster benötigen eine Netzwerkverbindung zuGoogle Cloud -APIs und -Diensten wie der Dataproc API, Cloud Storage und Cloud Logging sowie zu Nutzerressourcen wie Datenquellen in anderen Virtual Private Cloud-Netzwerken oder lokalen Umgebungen.

Standardmäßig werden Dataproc-Cluster, die mit Image-Versionen 2.2 und höher erstellt werden, nur mit internen IP-Adressen erstellt. Dataproc aktiviert automatisch den privaten Google-Zugriff für das regionale Subnetz, das vom Cluster mit nur interner IP-Adresse verwendet wird, um Verbindungen zu Google APIs und Google-Diensten zu ermöglichen, ohne eine Verbindung zum öffentlichen Internet herzustellen.

Für eine detailliertere Netzwerksteuerung können Sie einen Cluster so konfigurieren, dass er Private Service Connect verwendet. Dadurch wird der Traffic zu unterstützten Google APIs und ‑Diensten über einen privaten Endpunkt in Ihrem VPC-Netzwerk weitergeleitet. Das kann für Sicherheit und Compliance von Vorteil sein.

Häufig verwendete Optionen für private Netzwerke

In diesem Abschnitt werden die Funktionen und Unterschiede von privater Google-Zugriff, Private Service Connect und Cloud NAT beschrieben.

  • Der private Google-Zugriff ist ein unidirektionaler Pfad für VMs, um ohne Verwendung des Internets auf öffentliche Google-Dienste zuzugreifen. Das ist vergleichbar mit einer speziellen Ausfahrt aus Ihrer Nachbarschaft (VPC-Subnetz), die direkt zum Einkaufszentrum für Google-Dienste führt und öffentliche Straßen umgeht. Jeder in der Nachbarschaft kann sie nutzen. Dataproc aktiviert automatisch den privater Google-Zugriff für das regionale Subnetz, das von Dataproc Serverless-Clustern verwendet wird, die mit der Image-Version 2.2 und höher erstellt wurden.

  • Mit Private Service Connect wird ein privater bidirektionaler Endpunkt für einen Dienst erstellt, der sich in Ihrem VPC-Netzwerk befindet. Es ähnelt einem dedizierten privaten Pfad von Ihrem Standort (VPC-Netzwerk) direkt zu einem Dienst. Sie hat eine Adresse an Ihrem Standort (eine interne IP-Adresse in Ihrem VPC-Netzwerk) und nur Sie können sie verwenden.

  • Cloud NAT ermöglicht VMs mit privaten IP-Adressen den Zugriff auf das Internet.

Funktionen und Unterschiede

Funktion Privater Google-Zugriff (PGA) Private Service Connect (PSC)
Funktionsweise Leitet Traffic von einer VM an einen speziellen Google-IP-Adressbereich (private.googleapis.com) weiter. Erstellt eine Weiterleitungsregel (Endpunkt) in Ihrem VPC-Netzwerk, die den Google-Dienst repräsentiert.
IP-Adresse Ihre VM stellt eine Verbindung zu einer IP-Adresse von Google her. Ihre VM stellt eine Verbindung zu einer internen IP-Adresse her, die Sie in Ihrem VPC-Netzwerk besitzen.
Richtung Nur ausgehend: Ihre VM initiiert eine Verbindung zu Google. Bidirektional: Ihre VM stellt eine Verbindung zum Dienst her und der Dienst kann Rückverkehr initiieren.
Umfang Für ein gesamtes Subnetz aktiviert oder deaktiviert. Als bestimmte Endpunktressource bereitgestellt.
Dienste Es wird nur eine Verbindung zu Google-APIs wie Cloud Storage, BigQuery oder Dataproc API hergestellt. Verbindung zu Google APIs, Diensten anderer Unternehmen und Ihren eigenen Diensten

Für Dataproc ist der privater Google-Zugriff die einfachere, herkömmliche Methode, um Cluster-VMs die Kontaktaufnahme mit der Dataproc-Steuerungsebene zu ermöglichen. Private Service Connect ist ein neuerer und flexiblerer Ansatz, der Ihnen eine detaillierte Steuerung ermöglicht, insbesondere in komplexen oder Multi-Tenant-Netzwerken.

Warum Private Service Connect verwenden? Auch wenn Ihr Dataproc-Cluster nur interne IP-Adressen mit aktiviertem privater Google-Zugriff hat (die Standardkonfiguration für Cluster mit der Image-Version 2.2+), bietet Private Service Connect die folgenden Vorteile:

  • Anstatt die gemeinsam genutzten Endpunkte für den privater Google-Zugriff zu verwenden, um eine Verbindung zu Google APIs und Google-Diensten herzustellen, können Sie mit Private Service Connect einen privaten Endpunkt mit einer internen IP-Adresse in Ihrem VPC-Netzwerk erstellen, der direkt einem bestimmten Google-Dienst zugeordnet wird.

  • Sie können Firewallregeln erstellen, die Traffic nur an die IP-Adresse des Private Service Connect-Endpunkts zulassen. Sie können beispielsweise eine Regel konfigurieren, die ausgehenden Traffic von Dataproc-Cluster-VMs ausschließlich an die interne IP-Adresse des Private Service Connect-Endpunkts für BigQuery zulässt und den gesamten anderen ausgehenden Traffic ablehnt. Dies ist ein sichererer Ansatz als das Erstellen umfassenderer Firewallregeln mit dem privater Google-Zugriff.

  • Wenn Sie den Private Service Connect-Endpunkt in Ihrem VPC-Netzwerk verwenden, wird der Netzwerkpfad explizit angegeben und lässt sich leichter auf Sicherheit und Compliance prüfen, da der Traffic zu einem Dienst wie Cloud Storage keinen Pfad mit anderem API-Traffic teilt.

Private und öffentliche Pfade

Privater Google-Zugriff, Private Service Connect und Cloud NAT können Hosts mit RFC 1918-Adressen aufGoogle Cloud -Dienste zugreifen. Sie ermöglichen auch, dass Google Cloud Ressourcen mit privaten RFC 1918-Adressen Verbindungen zu Google Cloud Diensten herstellen.

Bei der Bewertung verschiedener Verbindungsoptionen ist es wichtig, zu unterscheiden, ob der Traffic über die Verbindung privat bleibt oder über das öffentliche Internet übertragen wird.

  • Mit dem privater Google-Zugriff und Private Service Connect bleibt der Traffic im privaten Netzwerk von Google. Daten werden nicht über das öffentliche Internet übertragen, um Google Cloud -Dienste zu erreichen. Das ist ideal für Sicherheit und vorhersehbare Leistung.

  • Cloud NAT erreicht einen Google Cloud Dienst, indem eine Verbindung zu einem öffentlichen Endpunkt für den Dienst hergestellt wird. Der Traffic verlässt Ihr VPC-Netzwerk über das NAT-Gateway und wird über das Internet übertragen.

Funktionsweise der einzelnen Optionen

Hier finden Sie eine Aufschlüsselung der einzelnen Verbindungsmechanismen:

Methode Pfad zum Dienst Zielendpunkt Primärer Anwendungsfall
Privater Google-Zugriff Privates Google-Netzwerk Spezielle Google-IP-Adressen (private.googleapis.com) Einfacher Zugriff auf Subnetzebene für VMs, um Google APIs privat zu erreichen.
Private Service Connect Privates Google-Netzwerk Ein privater IP-Adressenendpunkt in Ihrem VPC-Netzwerk Granularer, sicherer Zugriff auf Google-APIs, Drittanbieterdienste oder Ihre eigenen Dienste.
Cloud NAT Öffentliches Internet Öffentliche IP-Adresse des Dienstes Allgemeiner ausgehender Internetzugriff für VMs mit privaten IP-Adressen.

Private Service Connect konfigurieren

Wenn Sie Private Service Connect mit Ihrem Dataproc-Cluster verwenden möchten, müssen Sie die erforderlichen Private Service Connect-Endpunkte und DNS in Ihrem VPC-Netzwerk für alle Google APIs konfigurieren, von denen Dataproc abhängt. Eine Anleitung zum Einrichten Ihres Subnetzes und zum Konfigurieren von DNS finden Sie unter Zugriff auf Google APIs über Endpunkte.

Peering bei Bedarf aktivieren

Private Service Connect bietet zwar privaten Zugriff auf viele Google-Dienste, Sie müssen aber möglicherweise auch VPC-Peering aktivieren, insbesondere in den folgenden Fällen:

  • Andere Virtual Private Cloud-Netzwerke: Private Service Connect stellt eine Verbindung zu von Google verwalteten Diensten her, nicht direkt zu anderen VPC-Netzwerken von Kunden. Wenn sich Ihre Datenquellen, benutzerdefinierten Anwendungen oder anderen Dienste in einem anderen VPC-Netzwerk als Ihr Dataproc-Cluster befinden, ist in der Regel VPC-Peering erforderlich, um die private Kommunikation zwischen diesen Netzwerken zu ermöglichen.

  • Lokale Netzwerke: Wenn Ihr Dataproc-Cluster auf Daten oder Dienste in Ihrer lokalen Umgebung zugreift, benötigen Sie eine Cloud VPN- oder Cloud Interconnect-Verbindung zu Ihrem lokalen Netzwerk, die oft mit VPC-Peering kombiniert wird.

  • Umfassende interne Kommunikation mit Google-Diensten: Private Service Connect bietet zwar privaten Zugriff auf konfigurierte Google-Dienste wie Cloud Storage und BigQuery, für die interne Steuerungsebene oder bestimmte Dataproc-Funktionen ist jedoch möglicherweise VPC-Peering mit einem Netzwerk mit umfassender Google-Dienstzugänglichkeit erforderlich, um auf die zugrunde liegende Google-Infrastruktur oder andere Google-APIs zuzugreifen.

  • Zugriff auf Datenquellen in anderen VPC-Netzwerken: Wenn Ihre Dataproc-Jobs Daten aus Datenquellen wie Cloud SQL, selbstverwalteten Datenbanken und benutzerdefinierten Anwendungen lesen oder in diese schreiben, die sich in einem anderen VPC-Netzwerk befinden, müssen Sie VPC-Peering zwischen dem VPC-Netzwerk Ihres Dataproc-Clusters und dem VPC-Netzwerk mit diesen Datenquellen einrichten. Private Service Connect bietet keine VPC-Netzwerkkommunikation zwischen Netzwerken, die dem Kunden gehören.

  • Hybridkonnektivität: Bei Hybrid-Cloud-Bereitstellungen, bei denen Dataproc-Cluster mit Ressourcen in einem lokalen Rechenzentrum interagieren müssen, ist VPC-Peering unerlässlich, um Ihr lokales Netzwerk über Cloud VPN oder Cloud Interconnect mit Ihrem Google Cloud VPC-Netzwerk zu verbinden.

Fehlerbehebung bei Private Service Connect

Wenn Ihr Dataproc-Cluster mit Private Service Connect (ohne VPC-Peering) nicht erstellt werden kann oder Verbindungsprobleme auftreten, können Sie das Problem mit den folgenden Schritten beheben:

  • Prüfen Sie, ob der erforderliche API-Zugriff vorhanden ist:

    • Prüfen Sie, ob alle erforderlichen Google APIs in Ihrem Google Cloud -Projekt aktiviert sind.
  • Konfiguration des Private Service Connect-Endpunkts prüfen:

    • Prüfen Sie, ob ein Private Service Connect-Endpunkt für alle Google APIs, die für den Cluster erforderlich sind, z. B. dataproc.googleapis.com, storage.googleapis.com, logging.googleapis.com, bigquery.googleapis.com und compute.googleapis.com, richtig konfiguriert ist.

    • Verwenden Sie Tools wie dig oder nslookup von einer VM im VPC-Subnetz, um zu bestätigen, dass die DNS-Einträge für erforderliche Dienste mithilfe des Private Service Connect-Endpunkts korrekt in die privaten IP-Adressen in Ihrem VPC-Netzwerk aufgelöst werden.

  • Firewallregeln prüfen:

    • Prüfen Sie, ob Firewallregeln in Ihrem VPC-Netzwerk ausgehende Verbindungen von Dataproc-Clusterinstanzen zu Private Service Connect-Endpunkten zulassen.

    • Wenn Sie eine freigegebene VPC verwenden, prüfen Sie, ob die entsprechenden Firewallregeln im Hostprojekt konfiguriert sind.

  • Dataproc-Clusterlogs prüfen:

    • Sehen Sie sich die Logs zur Clustererstellung in Logging auf netzwerkbezogene Fehler wie connection refused, timeout oder „unreachable host“ an. Diese Fehler können auf eine fehlende Route oder eine falsche Firewallregel hinweisen. Prüfen Sie die Logs der seriellen Konsole von Clusterinstanzen.
  • VPC-Peering-Anforderungen ermitteln:

    • Wenn Ihr Dataproc-Cluster aufgrund von Arbeitslastabhängigkeiten eine Verbindung zu Ressourcen benötigt, die nicht von Google verwaltet werden, z. B. Datenbanken in einem separaten VPC-Netzwerk und lokalen Servern, richten Sie VPC-Peering ein.

    • Prüfen Sie die Netzwerkanforderungen derGoogle Cloud -Dienste, mit denen Ihr Dataproc-Cluster interagiert. Für einige Dienste gelten möglicherweise bestimmte Peering-Anforderungen, auch wenn sie mit Private Service Connect verwendet werden.

Angewandtes Wissen

  • Umfassende Planung der Netzwerkarchitektur: Bevor Sie Dataproc mit Private Service Connect bereitstellen, müssen Sie Ihre Netzwerkarchitektur sorgfältig planen und alle impliziten und expliziten Abhängigkeiten und Datenflusspfade berücksichtigen. Dazu gehört, alle Google-APIs zu identifizieren, mit denen Ihr Dataproc-Cluster während der Bereitstellung und des Betriebs interagiert.

  • Verbindung testen: Testen Sie die Netzwerkverbindung von Ihrem Dataproc-Cluster zu allen erforderlichen Diensten und Datenquellen während der Entwicklungs- und Staging-Phasen gründlich.

  • Network Intelligence Center: Verwenden Sie Google Cloud Network Intelligence Center-Tools wie Konnektivitätstests, um Probleme mit der Netzwerkverbindung zu diagnostizieren und zu beheben.

Nächste Schritte