Cette page explique comment configurer la connectivité réseau pour les clusters Dataproc lorsque vous utilisez Private Service Connect. Il explique l'interaction entre Private Service Connect et l'appairage de cloud privé virtuel (VPC) pour différents cas d'utilisation de Dataproc. Il résume également les similitudes et les différences entre l'accès privé à Google, Private Service Connect et Cloud NAT.
Présentation
Les clusters Dataproc nécessitent une connectivité réseau aux API et servicesGoogle Cloud , tels que l'API Dataproc, Cloud Storage et Cloud Logging, ainsi qu'aux ressources utilisateur, telles que les sources de données dans d'autres réseaux de cloud privé virtuel ou environnements sur site.
Par défaut, les clusters Dataproc créés avec les versions d'image 2.2
et ultérieures sont créés avec des adresses IP internes uniquement. Dataproc active automatiquement l'accès privé à Google sur le sous-réseau régional utilisé par le cluster avec adresse IP interne uniquement pour permettre les connexions aux API et services Google sans se connecter à l'Internet public.
Pour un contrôle plus précis du réseau, vous pouvez configurer un cluster afin qu'il utilise Private Service Connect, qui achemine le trafic vers les API et services Google compatibles via un point de terminaison privé au sein de votre réseau VPC. Cela peut être bénéfique pour la sécurité et la conformité.
Options courantes de mise en réseau privée
Cette section décrit les fonctionnalités et les différences entre l'accès privé à Google, Private Service Connect et Cloud NAT.
L'accès privé à Google est un chemin unidirectionnel permettant aux VM d'accéder aux services publics Google sans utiliser Internet. Il s'agit d'une sortie d'autoroute spéciale depuis votre quartier (sous-réseau VPC) qui mène directement au centre commercial des services Google, en évitant les routes publiques. Tous les voisins peuvent l'utiliser. Dataproc active automatiquement l'accès privé à Google sur le sous-réseau régional utilisé par les clusters Dataproc sans serveur créés avec la version d'image
2.2
ou ultérieure.Private Service Connect crée un point de terminaison privé bidirectionnel pour un service situé dans votre réseau VPC. Il s'agit d'un chemin privé dédié depuis votre emplacement (réseau VPC) directement vers un service. Il possède une adresse à votre emplacement (une adresse IP interne dans votre réseau VPC) et vous êtes le seul à pouvoir l'utiliser.
Cloud NAT permet aux VM disposant d'adresses IP privées d'accéder à Internet.
Fonctionnalités et différences
Fonctionnalité | Accès privé à Google (PGA) | Private Service Connect (PSC) |
---|---|---|
Fonctionnement | Dirige le trafic d'une VM vers une plage d'adresses IP Google spéciale (private.googleapis.com ). |
Crée une règle de transfert (point de terminaison) dans votre réseau VPC qui représente le service Google. |
Adresse IP | Votre VM se connecte à une adresse IP appartenant à Google. | Votre VM se connecte à une adresse IP interne qui vous appartient dans votre réseau VPC. |
Direction | Sortant uniquement : votre VM établit une connexion à Google. | Bidirectionnel : votre VM se connecte au service, et le service peut initier le trafic de retour. |
Champ d'application | Activé ou désactivé pour un sous-réseau entier. | Déployé en tant que ressource de point de terminaison spécifique. |
Services | Se connecte uniquement aux API Google, telles que les API Cloud Storage, BigQuery ou Dataproc. | Se connecte aux API Google, aux services d'autres entreprises et à vos propres services. |
Pour Dataproc, l'accès privé à Google est la méthode traditionnelle la plus simple pour permettre aux VM du cluster de contacter le plan de contrôle Dataproc. Private Service Connect est une approche plus récente et plus flexible qui vous offre un contrôle précis, en particulier dans les réseaux complexes ou multitenants.
Pourquoi utiliser Private Service Connect ? Même si votre cluster Dataproc ne possède que des adresses IP internes avec l'accès privé à Google activé (configuration par défaut pour les clusters de version d'image 2.2+
), Private Service Connect offre les avantages suivants :
Au lieu d'utiliser l'ensemble partagé de points de terminaison de l'Accès privé à Google pour vous connecter aux API et services Google, Private Service Connect vous permet de créer un point de terminaison privé avec une adresse IP interne dans votre réseau VPC, qui est directement mappé à un service Google spécifique.
Vous pouvez créer des règles de pare-feu qui autorisent le trafic uniquement vers l'adresse IP du point de terminaison Private Service Connect. Par exemple, vous pouvez configurer une règle qui autorise le trafic sortant des VM de cluster Dataproc exclusivement vers l'adresse IP interne du point de terminaison Private Service Connect pour BigQuery, tout en refusant tout autre trafic sortant. Cette approche est plus sécurisée que la création de règles de pare-feu plus larges avec l'accès privé à Google.
L'utilisation du point de terminaison Private Service Connect dans votre réseau VPC rend le chemin réseau explicite et facilite l'audit de sécurité et de conformité, car le trafic vers un service tel que Cloud Storage ne partage pas de chemin avec le trafic d'autres API.
Chemins privés et publics
L'accès privé à Google, Private Service Connect et Cloud NAT permettent aux hôtes avec des adresses RFC 1918
d'accéder aux servicesGoogle Cloud . Elles permettent également aux ressources Google Cloud avec des adresses RFC 1918
privées d'établir des connexions avec les services Google Cloud .
Lorsque vous évaluez différentes options de connexion, il est important de faire la distinction entre le trafic qui reste privé et celui qui transite par l'Internet public.
L'accès privé à Google et Private Service Connect maintiennent le trafic au sein du réseau privé de Google. Les données ne transitent pas par l'Internet public pour atteindre les services Google Cloud , ce qui est idéal pour la sécurité et les performances prévisibles.
Cloud NAT accède à un service Google Cloud en se connectant à un point de terminaison public pour le service. Le trafic quitte votre réseau VPC via la passerelle NAT et transite par Internet.
Fonctionnement de chaque option
Voici une description de chaque mécanisme de connexion :
Méthode | Chemin d'accès au service | Point de terminaison de destination | Cas d'utilisation principal |
---|---|---|---|
Accès privé à Google | Réseau privé Google | Adresses IP Google spéciales (private.googleapis.com ) |
Accès simple au niveau du sous-réseau pour que les VM puissent accéder aux API Google de manière privée. |
Private Service Connect | Réseau privé Google | Point de terminaison d'adresse IP privée dans votre réseau VPC | Accès sécurisé et précis aux API Google, aux services tiers ou à vos propres services. |
Cloud NAT | Internet public | Adresse IP publique du service | Accès Internet sortant à usage général pour les VM avec des adresses IP privées. |
Configurer Private Service Connect
Pour utiliser Private Service Connect avec votre cluster Dataproc, vous devez configurer les points de terminaison Private Service Connect et le DNS nécessaires dans votre réseau VPC pour toutes les API Google dont dépend Dataproc. Pour savoir comment configurer votre sous-réseau et le DNS, consultez À propos de l'accès aux API Google via des points de terminaison.
Activer l'appairage si nécessaire
Bien que Private Service Connect offre un accès privé à de nombreux services Google, vous devrez peut-être également activer l'appairage de VPC, en particulier dans les scénarios suivants :
Autres réseaux de cloud privé virtuel : Private Service Connect se connecte aux services gérés par Google, et non directement à d'autres réseaux VPC de clients. Si vos sources de données, applications personnalisées ou autres services se trouvent dans un réseau VPC différent de votre cluster Dataproc, l'appairage de réseaux VPC est généralement nécessaire pour permettre la communication privée entre ces réseaux.
Réseaux sur site : si votre cluster Dataproc accède à des données ou à des services dans votre environnement sur site, vous aurez besoin d'une connexion Cloud VPN ou Cloud Interconnect à votre réseau sur site, souvent combinée au peering VPC.
Communication interne complète avec les services Google : bien que Private Service Connect fournisse un accès privé aux services Google configurés, tels que Cloud Storage et BigQuery, les communications internes du plan de contrôle ou les fonctionnalités Dataproc spécifiques peuvent nécessiter un peering VPC vers un réseau avec une large accessibilité aux services Google pour accéder à l'infrastructure Google sous-jacente ou à d'autres API Google.
Accès aux sources de données dans d'autres réseaux VPC : si vos jobs Dataproc lisent ou écrivent des données dans des sources de données (Cloud SQL, bases de données autogérées et applications personnalisées, par exemple) situées dans un autre réseau VPC, vous devez établir un appairage VPC entre le réseau VPC de votre cluster Dataproc et le réseau VPC contenant ces sources de données. Private Service Connect ne permet pas la communication entre les réseaux VPC appartenant aux clients.
Connectivité hybride : pour les déploiements de cloud hybride où les clusters Dataproc doivent interagir avec des ressources dans un centre de données sur site, l'appairage de VPC est essentiel pour connecter votre réseau sur site à votre réseau VPC Google Cloud à l'aide de Cloud VPN ou de Cloud Interconnect.
Dépanner Private Service Connect
Si votre cluster Dataproc avec Private Service Connect (sans appairage de VPC) ne parvient pas à être créé ou présente des problèmes de connectivité, suivez les étapes ci-dessous pour résoudre le problème :
Vérifiez que vous avez accès aux API requises :
- Vérifiez que toutes les API Google nécessaires sont activées dans votre projet Google Cloud .
Vérifiez la configuration du point de terminaison Private Service Connect :
Vérifiez qu'un point de terminaison Private Service Connect est correctement configuré pour toutes les API Google requises par le cluster, telles que
dataproc.googleapis.com
,storage.googleapis.com
,logging.googleapis.com
,bigquery.googleapis.com
etcompute.googleapis.com
.Utilisez des outils tels que
dig
ounslookup
à partir d'une VM du sous-réseau VPC pour vérifier que les enregistrements DNS des services requis sont correctement résolus en adresses IP privées dans votre réseau VPC à l'aide du point de terminaison Private Service Connect.
Vérifiez les règles de pare-feu :
Vérifiez que les règles de pare-feu de votre réseau VPC autorisent les connexions sortantes des instances de cluster Dataproc aux points de terminaison Private Service Connect.
Si vous utilisez un VPC partagé, vérifiez que les règles de pare-feu appropriées sont configurées dans le projet hôte.
Examinez les journaux du cluster Dataproc :
- Consultez les journaux de création de cluster dans Logging pour identifier les éventuelles erreurs liées au réseau, telles que
connection refused
,timeout
ou "unreachable host
. Ces erreurs peuvent indiquer une route manquante ou une règle de pare-feu incorrecte. Examinez les journaux de la console série des instances de cluster.
- Consultez les journaux de création de cluster dans Logging pour identifier les éventuelles erreurs liées au réseau, telles que
Évaluez la nécessité d'un appairage de VPC :
En fonction des dépendances de charge de travail, si votre cluster Dataproc nécessite une connectivité à des ressources qui ne sont pas gérées par Google, telles que des bases de données dans un réseau VPC distinct et des serveurs sur site, établissez un appairage VPC.
Examinez les exigences réseau des servicesGoogle Cloud avec lesquels votre cluster Dataproc interagit. Certains services peuvent avoir des exigences de peering spécifiques, même lorsqu'ils sont utilisés avec Private Service Connect.
Appliquer les bonnes pratiques
Planification complète de l'architecture réseau : avant de déployer Dataproc avec Private Service Connect, concevez soigneusement votre architecture réseau en tenant compte de toutes les dépendances et de tous les chemins de flux de données implicites et explicites. Cela inclut l'identification de toutes les API Google avec lesquelles votre cluster Dataproc interagit lors du provisionnement et du fonctionnement.
Testez la connectivité : testez minutieusement la connectivité réseau de votre cluster Dataproc à tous les services et sources de données requis pendant les phases de développement et de préparation.
Utilisez Network Intelligence Center : utilisez les outils Network Intelligence Center, tels que Tests de connectivité, pour diagnostiquer et résoudre les problèmes de connectivité réseau. Google Cloud
Étapes suivantes
- Apprenez-en plus sur Private Service Connect.
- Comprendre l'appairage de réseaux VPC.
- Explorez la configuration réseau du cluster Dataproc.