Rede de clusters do Dataproc com o Private Service Connect

Nesta página, você encontra orientações sobre como configurar a conectividade de rede para clusters do Dataproc ao usar o Private Service Connect. Ele explica a interação entre o Private Service Connect e o peering de nuvem privada virtual para diferentes casos de uso do Dataproc. Ele também resume as semelhanças e diferenças de recursos entre o Acesso privado do Google, o Private Service Connect e o Cloud NAT.

Visão geral

Os clusters do Dataproc exigem conectividade de rede com APIs e serviços doGoogle Cloud , como a API Dataproc, o Cloud Storage e o Cloud Logging, além de recursos do usuário, como fontes de dados em outras redes de nuvem privada virtual ou ambientes locais.

Por padrão, os clusters do Dataproc criados com versões de imagem 2.2 e mais recentes são criados apenas com endereços IP internos. O Dataproc ativa automaticamente o Acesso privado do Google na sub-rede regional usada pelo cluster somente com IP interno para permitir conexões com APIs e serviços do Google sem se conectar à Internet pública.

Para oferecer um controle de rede mais granular, é possível configurar um cluster para usar o Private Service Connect, que encaminha o tráfego para as APIs e os serviços do Google compatíveis por um endpoint particular na rede VPC. Isso pode ser benéfico para segurança e compliance.

Opções comuns de rede particular

Esta seção descreve os recursos e as diferenças entre o Acesso privado do Google, o Private Service Connect e o Cloud NAT.

  • O Acesso privado do Google é um caminho unidirecional para que as VMs alcancem os serviços públicos do Google sem usar a Internet. É semelhante a uma saída especial do seu bairro (sub-rede VPC) que leva diretamente ao shopping de serviços do Google, sem passar por vias públicas. Todos na vizinhança podem usar. O Dataproc ativa automaticamente o Acesso privado do Google na sub-rede regional usada pelos clusters do Dataproc sem servidor criados com a versão da imagem 2.2 e posterior.

  • O Private Service Connect cria um endpoint particular bidirecional para um serviço localizado na sua rede VPC. É semelhante a um caminho privado dedicado da sua localização (rede VPC) diretamente para um serviço. Ele tem um endereço no seu local (um endereço IP interno na sua rede VPC) e só você pode usá-lo.

  • O Cloud NAT permite que VMs com endereços IP particulares acessem a Internet.

Recursos e diferenças

Recurso Acesso privado do Google (PGA) Private Service Connect (PSC)
Como funciona Direciona o tráfego de uma VM para um intervalo especial de endereços IP do Google (private.googleapis.com). Cria uma regra de encaminhamento (endpoint) na sua rede VPC que representa o serviço do Google.
Endereço IP Sua VM se conecta a um endereço IP de propriedade do Google. A VM se conecta a um endereço IP interno que você possui na rede VPC.
Direção Somente saída: sua VM inicia uma conexão com o Google. Bidirecional: sua VM se conecta ao serviço, e o serviço pode iniciar o tráfego de retorno.
Escopo Ativada ou desativada para uma sub-rede inteira. Implantado como um recurso de endpoint específico.
Serviços Conecta-se apenas às APIs do Google, como Cloud Storage, BigQuery ou API Dataproc. Conecta-se a APIs do Google, serviços de outras empresas e seus próprios serviços.

Para o Dataproc, o Acesso privado do Google é o método mais simples e tradicional para permitir que as VMs do cluster entrem em contato com o plano de controle do Dataproc. O Private Service Connect é uma abordagem mais recente e flexível que oferece controle refinado, principalmente em redes complexas ou multitenant.

Por que usar o Private Service Connect? Mesmo que o cluster do Dataproc tenha endereços IP somente internos com o Acesso privado do Google ativado (a configuração padrão para clusters da versão da imagem 2.2+), o Private Service Connect oferece as seguintes vantagens:

  • Em vez de usar o conjunto compartilhado de endpoints do Acesso privado do Google para se conectar às APIs e serviços do Google, o Private Service Connect permite criar um endpoint particular com um endereço IP interno na sua rede VPC que mapeia diretamente para um serviço específico do Google.

  • É possível criar regras de firewall que permitem o tráfego apenas para o endereço IP do endpoint do Private Service Connect. Por exemplo, é possível configurar uma regra que permita o tráfego de saída das VMs do cluster do Dataproc exclusivamente para o endereço IP interno do endpoint do Private Service Connect do BigQuery, negando todo o outro tráfego de saída. Essa abordagem é mais segura do que criar regras de firewall mais amplas com o Acesso privado do Google.

  • Usar o endpoint do Private Service Connect na sua rede VPC torna o caminho de rede explícito e mais fácil de auditar para segurança e compliance, já que o tráfego para um serviço como o Cloud Storage não compartilha um caminho com outro tráfego de API.

Caminhos públicos e particulares

O Acesso privado do Google, o Private Service Connect e o Cloud NAT permitem que hosts com endereços RFC 1918 alcancem serviços doGoogle Cloud . Eles também permitem que recursos Google Cloud com endereçosRFC 1918privados iniciem conexões com serviços Google Cloud .

Uma distinção importante ao avaliar diferentes opções de conexão é se o tráfego que usa a conexão permanece privado ou viaja pela Internet pública.

  • O Acesso privado do Google e o Private Service Connect mantêm o tráfego na rede privada do Google. Os dados não viajam pela Internet pública para chegar aos serviços do Google Cloud , o que é ideal para segurança e desempenho previsível.

  • O Cloud NAT acessa um serviço Google Cloud conectando-se a um endpoint público dele. O tráfego sai da rede VPC pelo gateway NAT e viaja pela Internet.

Como cada opção funciona

Confira um resumo de cada mecanismo de conexão:

Método Caminho para o serviço Endpoint de destino Caso de uso principal
Acesso privado do Google Rede privada do Google Endereços IP especiais do Google (private.googleapis.com) Acesso simples no nível da sub-rede para que as VMs alcancem as APIs do Google de forma privada.
Private Service Connect Rede privada do Google Um endpoint de endereço IP particular na rede VPC Acesso granular e seguro às APIs do Google, a terceiros ou aos seus próprios serviços.
Cloud NAT Internet pública Endereço IP público do serviço Acesso geral à Internet de saída para VMs com endereços IP particulares.

Configure o Private Service Connect

Para usar o Private Service Connect com seu cluster do Dataproc, configure os endpoints e o DNS necessários do Private Service Connect na sua rede VPC para todas as APIs do Google de que o Dataproc depende. Para instruções sobre como configurar sua sub-rede e o DNS, consulte Sobre como acessar APIs do Google por endpoints.

Ativar o peering, se necessário

Embora o Private Service Connect ofereça acesso privado a muitos serviços do Google, talvez seja necessário ativar o peering de VPC, principalmente nos seguintes cenários:

  • Outras redes de nuvem privada virtual: o Private Service Connect se conecta a serviços gerenciados pelo Google, não diretamente a outras redes VPC de clientes. Se suas fontes de dados, aplicativos personalizados ou outros serviços estiverem em uma rede VPC diferente do cluster do Dataproc, geralmente será necessário o peering de VPC para ativar a comunicação particular entre essas redes.

  • Redes locais: se o cluster do Dataproc acessar dados ou serviços no seu ambiente local, será necessário ter uma conexão do Cloud VPN ou do Cloud Interconnect com sua rede local, geralmente combinada com o peering de VPC.

  • Comunicação interna abrangente com os Serviços do Google: embora o Private Service Connect ofereça acesso particular a serviços do Google configurados, como o Cloud Storage e o BigQuery, as comunicações do plano de controle interno ou recursos específicos do Dataproc podem exigir peering de VPC com uma rede com ampla acessibilidade aos Serviços do Google para acessar a infraestrutura do Google ou outras APIs do Google.

  • Acesso a fontes de dados em outras redes VPC: se os jobs do Dataproc lerem ou gravarem em fontes de dados, como Cloud SQL, bancos de dados autogerenciados e aplicativos personalizados, que estão localizados em uma rede VPC diferente, estabeleça peering de VPC entre a rede VPC do cluster do Dataproc e a rede VPC que contém essas fontes de dados. O Private Service Connect não oferece comunicação entre redes rede VPC de propriedade do cliente.

  • Conectividade híbrida: para implantações de nuvem híbrida em que os clusters do Dataproc precisam interagir com recursos em um data center local, o peering de VPC é essencial para conectar sua rede local à rede VPC Google Cloud usando o Cloud VPN ou o Cloud Interconnect.

Solucionar problemas do Private Service Connect

Se o cluster do Dataproc com o Private Service Connect (sem peering de VPC) não for criado ou tiver problemas de conectividade, siga estas etapas para ajudar a resolver o problema:

  • Confirme o acesso à API necessário:

    • Verifique se todas as APIs do Google necessárias estão ativadas no seu projeto Google Cloud .
  • Verifique a configuração do endpoint do Private Service Connect:

    • Verifique se um endpoint do Private Service Connect está configurado corretamente para todas as APIs do Google necessárias para o cluster, como dataproc.googleapis.com, storage.googleapis.com, logging.googleapis.com, bigquery.googleapis.com e compute.googleapis.com.

    • Use ferramentas como dig ou nslookup de uma VM na sub-rede da VPC para confirmar se os registros DNS dos serviços necessários são resolvidos corretamente para os endereços IP particulares na rede VPC usando o endpoint do Private Service Connect.

  • Verifique as regras de firewall:

    • Verifique se as regras de firewall na sua rede VPC permitem conexões de saída das instâncias de cluster do Dataproc com endpoints do Private Service Connect.

    • Se você estiver usando a VPC compartilhada, verifique se as regras de firewall adequadas estão configuradas no projeto host.

  • Analise os registros do cluster do Dataproc:

    • Analise os registros de criação de cluster no Logging para encontrar erros relacionados à rede, como connection refused, timeout ou unreachable host. Esses erros podem indicar uma rota ausente ou uma regra de firewall incorreta. Examine os registros do console serial das instâncias do cluster.
  • Avalie a necessidade de peering de VPC:

    • Com base nas dependências da carga de trabalho, se o cluster do Dataproc exigir conectividade com recursos que não são gerenciados pelo Google, como bancos de dados em uma rede VPC separada e servidores locais, estabeleça o peering de VPC.

    • Examine os requisitos de rede dos serviçosGoogle Cloud com que o cluster do Dataproc interage. Alguns serviços podem ter requisitos de peering específicos, mesmo quando usados com o Private Service Connect.

Seguir as práticas recomendadas

  • Planejamento abrangente da arquitetura de rede: antes de implantar o Dataproc com o Private Service Connect, projete cuidadosamente sua arquitetura de rede, considerando todas as dependências implícitas e explícitas e os caminhos de fluxo de dados. Isso inclui identificar todas as APIs do Google com que seu cluster do Dataproc interage durante o provisionamento e a operação.

  • Teste a conectividade: teste completamente a conectividade de rede do cluster do Dataproc com todos os serviços e fontes de dados necessários durante as fases de desenvolvimento e de teste.

  • Use o Network Intelligence Center: use as ferramentas do Network Intelligence Center, como os Testes de conectividade, para diagnosticar e resolver problemas de conectividade de rede. Google Cloud

A seguir