Questa pagina fornisce indicazioni sulla configurazione della connettività di rete per i cluster Dataproc quando utilizzi Private Service Connect. Spiega l'interazione tra Private Service Connect e il peering VPC (Virtual Private Cloud) per diversi casi d'uso di Dataproc. Riassume inoltre le somiglianze e le differenze tra le funzionalità di accesso privato Google, Private Service Connect e Cloud NAT.
Panoramica
I cluster Dataproc richiedono la connettività di rete alle API e ai serviziGoogle Cloud , come l'API Dataproc, Cloud Storage e Cloud Logging, nonché alle risorse utente, come le origini dati in altre reti Virtual Private Cloud o in ambienti on-premise.
Per impostazione predefinita, i cluster Dataproc creati con le versioni immagine 2.2
e successive
vengono creati solo con indirizzi IP interni. Dataproc abilita automaticamente l'accesso privato Google nella subnet regionale utilizzata dal cluster solo con IP interno per consentire le connessioni alle API e ai servizi Google senza connettersi a internet pubblico.
Per fornire un controllo più granulare della rete, puoi configurare un cluster in modo che utilizzi Private Service Connect, che indirizza il traffico alle API e ai servizi Google supportati tramite un endpoint privato all'interno della rete VPC. Ciò può essere utile per la sicurezza e la conformità.
Opzioni comuni di networking privato
Questa sezione descrive le funzionalità e le differenze di accesso privato Google, Private Service Connect e Cloud NAT.
L'accesso privato Google è un percorso unidirezionale per le VM per raggiungere i servizi pubblici di Google senza utilizzare internet. È simile a un'uscita speciale dal tuo quartiere (subnet VPC) che porta direttamente al centro commerciale dei servizi Google, evitando le strade pubbliche. Tutti nel quartiere possono utilizzarlo. Dataproc attiva automaticamente l'accesso privato Google nella subnet regionale utilizzata dai cluster Dataproc senza server creati con la versione dell'immagine
2.2
e successive.Private Service Connect crea un endpoint privato bidirezionale per un servizio che si trova all'interno della tua rete VPC. È simile a un percorso privato dedicato dalla tua posizione (rete VPC) direttamente a un servizio. Ha un indirizzo nella tua posizione (un indirizzo IP interno nella tua rete VPC) e solo tu puoi utilizzarlo.
Cloud NAT consente alle VM con indirizzi IP privati di accedere a internet.
Caratteristiche e differenze
Funzionalità | Accesso privato Google (PGA) | Private Service Connect (PSC) |
---|---|---|
Come funziona | Dirige il traffico da una VM a uno speciale intervallo di indirizzi IP di Google (private.googleapis.com ). |
Crea una regola di forwarding (endpoint) all'interno della tua rete VPC che rappresenta il servizio Google. |
Indirizzo IP | La tua VM si connette a un indirizzo IP di proprietà di Google. | La VM si connette a un indirizzo IP interno di tua proprietà all'interno della rete VPC. |
Direzione | Solo in uscita: la tua VM avvia una connessione a Google. | Bidirezionale: la VM si connette al servizio e il servizio può avviare il traffico di ritorno. |
Ambito | Attivato o disattivato per un'intera subnet. | Eseguito il deployment come risorsa endpoint specifica. |
Servizi | Si connette solo alle API di Google, come l'API Cloud Storage, BigQuery o Dataproc. | Si connette alle API di Google, ai servizi di altre aziende e ai tuoi servizi. |
Per Dataproc, l'accesso privato Google è il metodo più semplice e tradizionale per consentire alle VM del cluster di contattare il piano di controllo Dataproc. Private Service Connect è un approccio più recente e flessibile che ti offre un controllo granulare, in particolare in reti complesse o multi-tenant.
Perché utilizzare Private Service Connect? Anche se il cluster Dataproc
ha indirizzi IP solo interni con l'accesso privato Google
attivato (la configurazione predefinita per i cluster con versione immagine 2.2+
),
Private Service Connect offre i seguenti vantaggi:
Anziché utilizzare il set condiviso di endpoint di accesso privato Google per connettersi alle API e ai servizi Google, Private Service Connect ti consente di creare un endpoint privato con un indirizzo IP interno all'interno della tua rete VPC che esegue il mapping diretto a un servizio Google specifico.
Puoi creare regole firewall che consentono il traffico solo verso l'indirizzo IP dell'endpoint Private Service Connect. Ad esempio, puoi configurare una regola che consenta il traffico in uscita dalle VM del cluster Dataproc esclusivamente all'indirizzo IP interno dell'endpoint Private Service Connect per BigQuery, negando tutto il resto del traffico in uscita. Si tratta di un approccio più sicuro rispetto alla creazione di regole firewall più ampie con l'accesso privato Google.
L'utilizzo dell'endpoint Private Service Connect all'interno della tua rete VPC rende il percorso di rete esplicito e più facile da controllare per la sicurezza e la conformità, poiché il traffico verso un servizio come Cloud Storage non condivide un percorso con altro traffico API.
Sentieri privati e pubblici
L'accesso privato Google, Private Service Connect e Cloud NAT consentono agli host con indirizzi RFC 1918
di raggiungere i serviziGoogle Cloud . Consentono inoltre alle risorse Google Cloud con indirizzi RFC 1918
privati di avviare connessioni ai servizi Google Cloud .
Una distinzione importante da fare quando si valutano diverse opzioni di connessione è se il traffico che utilizza la connessione rimane privato o viaggia su internet pubblico.
L'accesso privato Google e Private Service Connect mantengono il traffico all'interno della rete privata di Google. I dati non vengono trasferiti su internet pubblico per raggiungere i servizi Google Cloud , il che è ideale per la sicurezza e le prestazioni prevedibili.
Cloud NAT raggiunge un servizio Google Cloud connettendosi a un endpoint pubblico per il servizio. Il traffico esce dalla rete VPC tramite il gateway NAT e viaggia su internet.
Come funziona ogni opzione
Ecco una suddivisione di ciascun meccanismo di connessione:
Metodo | Percorso del servizio | Endpoint di destinazione | Caso d'uso primario |
---|---|---|---|
Accesso privato Google | Rete privata di Google | Indirizzi IP speciali di Google (private.googleapis.com ) |
Accesso semplice a livello di subnet per le VM per raggiungere le API di Google in modo privato. |
Private Service Connect | Rete privata di Google | Un endpoint di indirizzo IP privato all'interno della tua rete VPC | Accesso granulare e sicuro alle API di Google, a terze parti o ai tuoi servizi. |
Cloud NAT | Rete internet pubblica | Indirizzo IP pubblico del servizio | Accesso a internet in uscita per uso generico per le VM con indirizzi IP privati. |
Configurazione di Private Service Connect
Per utilizzare Private Service Connect con il tuo cluster Dataproc, devi configurare gli endpoint Private Service Connect e il DNS necessari nella tua rete VPC per tutte le API di Google da cui dipende Dataproc. Per istruzioni sulla configurazione della subnet e del DNS, consulta Informazioni sull'accesso alle API di Google tramite endpoint.
Abilita il peering, se necessario
Sebbene Private Service Connect fornisca l'accesso privato a molti servizi Google, potrebbe essere necessario attivare anche il peering VPC, in particolare nei seguenti scenari:
Altre reti Virtual Private Cloud: Private Service Connect si connette ai servizi gestiti da Google, non direttamente ad altre reti VPC dei clienti. Se le origini dati, le applicazioni personalizzate o altri servizi si trovano in una rete VPC diversa dal cluster Dataproc, in genere è necessario il peering VPC per abilitare la comunicazione privata tra queste reti.
Reti on-premise: se il tuo cluster Dataproc accede a dati o servizi nel tuo ambiente on-premise, avrai bisogno di una connessione Cloud VPN o Cloud Interconnect alla tua rete on-premise, spesso combinata con il peering VPC.
Comunicazione interna completa ai servizi Google: mentre Private Service Connect fornisce l'accesso privato ai servizi Google configurati, come Cloud Storage e BigQuery, le comunicazioni del control plane interno o funzionalità specifiche di Dataproc potrebbero richiedere il peering VPC a una rete con ampia accessibilità ai servizi Google per accedere all'infrastruttura Google sottostante o ad altre API Google.
Accesso alle origini dati in altre reti VPC: se i tuoi job Dataproc leggono o scrivono in origini dati, come Cloud SQL, database autogestiti e applicazioni personalizzate, che si trovano in una rete VPC diversa, devi stabilire il peering VPC tra la rete VPC del cluster Dataproc e la rete VPC contenente queste origini dati. Private Service Connect non fornisce la comunicazione tra reti VPC tra reti di proprietà dei clienti.
Connettività ibrida: per i deployment cloud ibrido in cui i cluster Dataproc devono interagire con le risorse in un data center on-premise, il peering VPC è essenziale per connettere la rete on-premise alla rete VPC utilizzando Cloud VPN o Cloud Interconnect. Google Cloud
Risolvere i problemi di Private Service Connect
Se il cluster Dataproc con Private Service Connect (senza peering VPC) non viene creato o presenta problemi di connettività, segui questi passaggi per risolvere il problema:
Conferma l'accesso API richiesto:
- Verifica che tutte le API di Google necessarie siano attive nel tuo progetto Google Cloud .
Verifica la configurazione dell'endpoint Private Service Connect:
Verifica che un endpoint Private Service Connect sia configurato correttamente per tutte le API di Google richieste dal cluster, ad esempio
dataproc.googleapis.com
,storage.googleapis.com
,logging.googleapis.com
,bigquery.googleapis.com
,compute.googleapis.com
.Utilizza strumenti come
dig
onslookup
da una VM all'interno della subnet VPC per verificare che i record DNS per i servizi richiesti vengano risolti correttamente negli indirizzi IP privati all'interno della tua rete VPC utilizzando l'endpoint Private Service Connect.
Controlla le regole firewall:
Verifica che le regole firewall nella tua rete VPC consentano le connessioni in uscita dalle istanze del cluster Dataproc agli endpoint Private Service Connect.
Se utilizzi un VPC condiviso, verifica che nel progetto host siano configurate regole firewall appropriate.
Esamina i log del cluster Dataproc:
- Esamina i log di creazione del cluster in Logging per eventuali
errori relativi alla rete, ad esempio
connection refused
,timeout
o "unreachable host
. Questi errori possono indicare una route mancante o una regola firewall errata. Esamina i log della console seriale delle istanze del cluster.
- Esamina i log di creazione del cluster in Logging per eventuali
errori relativi alla rete, ad esempio
Valuta la necessità del peering VPC:
In base alle dipendenze del carico di lavoro, se il cluster Dataproc richiede la connettività a risorse non gestite da Google, come database in una rete VPC separata e server on-premise, stabilisci il peering VPC.
Esamina i requisiti di rete dei serviziGoogle Cloud con cui interagisce il tuo cluster Dataproc. Alcuni servizi potrebbero avere requisiti di peering specifici anche se utilizzati con Private Service Connect.
Segui le best practice
Pianificazione completa dell'architettura di rete: prima di eseguire il deployment di Dataproc con Private Service Connect, progetta attentamente l'architettura di rete, tenendo conto di tutte le dipendenze implicite ed esplicite e dei percorsi del flusso di dati. Ciò include l'identificazione di tutte le API Google con cui interagisce il cluster Dataproc durante il provisioning e il funzionamento.
Testa la connettività: testa a fondo la connettività di rete dal cluster Dataproc a tutti i servizi e le origini dati richiesti durante le fasi di sviluppo e staging.
Utilizza Network Intelligence Center: utilizza gli strumenti di Network Intelligence Center, ad esempio Connectivity Tests, per diagnosticare e risolvere i problemi di connettività di rete. Google Cloud
Passaggi successivi
- Scopri di più su Private Service Connect.
- Comprendi il peering di rete VPC.
- Esplora la configurazione di rete del cluster Dataproc.