Configuração de rede do Dataproc Serverless para Spark

Este documento descreve os requisitos necessários para a configuração de rede do Dataproc Serverless para Spark.

Requisitos da sub-rede da nuvem privada virtual

Este documento explica os requisitos de rede da nuvem privada virtual para cargas de trabalho em lote e sessões interativas do Dataproc sem servidor para Spark.

Acesso privado do Google

As cargas de trabalho em lote do Dataproc sem servidor e as sessões interativas são executadas em VMs com endereços IP internos e em uma sub-rede regional com o Acesso particular do Google (PGA) ativado automaticamente na sub-rede de sessão.

Se você não especificar uma sub-rede, o Dataproc Serverless vai selecionar a sub-rede default na região da carga de trabalho ou sessão em lote como a sub-rede de uma carga de trabalho ou sessão em lote.

Se a carga de trabalho exigir acesso à rede externa ou à Internet, por exemplo, para fazer o download de recursos, como modelos de ML do PyTorch Hub ou do Hugging Face, é possível configurar o Cloud NAT para permitir o tráfego de saída usando IPs internos na rede VPC.

Abrir a conectividade da sub-rede

A sub-rede da VPC para a região selecionada para a carga de trabalho em lote do Dataproc Serverless ou a sessão interativa precisa permitir a comunicação interna da sub-rede em todas as portas entre instâncias de VM.

O comando da CLI do Google Cloud a seguir anexa um firewall de rede a uma subrede que permite comunicações de entrada internas entre VMs usando todos os protocolos em todas as portas:

gcloud compute firewall-rules create allow-internal-ingress \
    --network=NETWORK_NAME \
    --source-ranges=SUBNET_RANGES \
    --destination-ranges=SUBNET_RANGES \
    --direction=ingress \
    --action=allow \
    --rules=all

Observações:

  • SUBNET_RANGES: Consulte Permitir conexões de entrada internas entre VMs. A rede VPC default em um projeto com a regra de firewall default-allow-internal, que permite a comunicação de entrada em todas as portas (tcp:0-65535, udp:0-65535 e icmp protocols:ports), atende ao requisito de conectividade de sub-rede aberta. No entanto, essa regra também permite a entrada de qualquer instância de VM na rede.

Dataproc sem servidor e redes VPC-SC

Com o VPC Service Controls, os administradores de rede podem definir um perímetro de segurança em torno dos recursos dos serviços gerenciados pelo Google para controlar a comunicação entre esses serviços.

Observe as seguintes estratégias ao usar redes VPC-SC com o Dataproc Serverless:

Para mais informações, consulte VPC Service Controls: Dataproc sem servidor para Spark.