Questo documento descrive i requisiti necessari per la configurazione della rete di Dataproc Serverless per Spark.
Requisiti della sottorete Virtual Private Cloud
Questo documento illustra i requisiti della rete Virtual Private Cloud per Dataproc Serverless per i carichi di lavoro batch Spark e le sessioni interattive.
Accesso privato Google
I carichi di lavoro batch e le sessioni interattive di Dataproc Serverless vengono eseguiti su VM con solo indirizzi IP interni e su una subnet regionale con l'accesso privato Google (PGA) abilitato automaticamente nella subnet della sessione.
Se non specifichi una subnet, Dataproc Serverless seleziona la subnet default
nella regione del carico di lavoro batch o della sessione come subnet per un carico di lavoro batch o una sessione.
Se il tuo carico di lavoro richiede l'accesso a una rete esterna o a internet, ad esempio per scaricare risorse come i modelli di ML da PyTorch Hub o Hugging Face, puoi configurare Cloud NAT per consentire il traffico in uscita utilizzando gli IP interni sulla tua rete VPC.
Connettività della subnet aperta
La subnet VPC per la regione selezionata per il carico di lavoro batch Dataproc Serverless o la sessione interattiva deve consentire la comunicazione della subnet interna su tutte le porte tra le istanze VM.
Il seguente comando Google Cloud CLI collega una firewall di rete a una sottorete che consente le comunicazioni in entrata interne tra le VM che utilizzano tutti i protocolli su tutte le porte:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Note:
SUBNET_RANGES: Consulta Consenti le connessioni in entrata interne tra le VM. La rete VPC
default
in un progetto con ladefault-allow-internal
regola firewall, che consente la comunicazione in entrata su tutte le porte (tcp:0-65535
,udp:0-65535
eicmp protocols:ports
),soddisfa il requisito di connettività della subnet aperta. Tuttavia, questa regola consente anche l'ingresso di qualsiasi istanza VM sulla rete.
Reti Dataproc Serverless e VPC-SC
Con Controlli di servizio VPC, gli amministratori di rete possono definire un perimetro di sicurezza intorno alle risorse dei servizi gestiti da Google per controllare le comunicazioni con quei servizi.
Tieni presente le seguenti strategie quando utilizzi le reti VPC-SC con Dataproc Serverless:
Crea un'immagine container personalizzata che preinstalla le dipendenze all'esterno del perimetro del VPC-SC, quindi invia un carico di lavoro batch Spark che utilizza l'immagine container personalizzata.
Per saperne di più, consulta Controlli di servizio VPC: Dataproc Serverless per Spark.