Redes de clústeres de Dataproc con Private Service Connect

En esta página, se proporciona orientación para configurar la conectividad de red de los clústeres de Dataproc cuando se usa Private Service Connect. Explica la interacción entre Private Service Connect y el intercambio de tráfico de la nube privada virtual para diferentes casos de uso de Dataproc. También resume las similitudes y diferencias de las funciones entre el Acceso privado a Google, Private Service Connect y Cloud NAT.

Descripción general

Los clústeres de Dataproc requieren conectividad de red a las APIs y los servicios deGoogle Cloud , como la API de Dataproc, Cloud Storage y Cloud Logging, y a los recursos del usuario, como las fuentes de datos en otras redes de nube privada virtual o entornos locales.

De forma predeterminada, los clústeres de Dataproc creados con versiones de imagen 2.2 y posteriores se crean solo con direcciones IP internas. Dataproc habilita automáticamente el Acceso privado a Google en la subred regional que usa el clúster solo con IP interna para habilitar las conexiones a las APIs y los servicios de Google sin conectarse a Internet pública.

Para proporcionar un control de red más detallado, puedes configurar un clúster para que use Private Service Connect, que enruta el tráfico a las APIs y los servicios de Google admitidos a través de un extremo privado dentro de tu red de VPC. Esto puede ser beneficioso para la seguridad y el cumplimiento.

Opciones comunes de redes privadas

En esta sección, se describen las funciones y las diferencias entre el acceso privado a Google, Private Service Connect y Cloud NAT.

  • El Acceso privado a Google es una ruta unidireccional para que las VMs lleguen a los servicios públicos de Google sin usar Internet. Es similar a una salida especial de la autopista desde tu vecindario (subred de VPC) que conduce directamente al centro comercial de servicios de Google, sin pasar por las rutas públicas. Todos en el vecindario pueden usarlo. Dataproc habilita automáticamente el Acceso privado a Google en la subred regional que usan los clústeres de Dataproc sin servidores creados con la versión de imagen 2.2 y versiones posteriores.

  • Private Service Connect crea un extremo privado bidireccional para un servicio que se encuentra dentro de tu red de VPC. Es similar a una ruta privada dedicada desde tu ubicación (red de VPC) directamente a un servicio. Tiene una dirección en tu ubicación (una dirección IP interna en tu red de VPC) y solo tú puedes usarla.

  • Cloud NAT permite que las VMs con direcciones IP privadas accedan a Internet.

Características y diferencias

Función Acceso privado a Google (PGA) Private Service Connect (PSC)
Cómo funciona Dirige el tráfico de una VM a un rango especial de direcciones IP de Google (private.googleapis.com). Crea una regla de reenvío (extremo) dentro de tu red de VPC que representa el servicio de Google.
Dirección IP Tu VM se conecta a una dirección IP propiedad de Google. Tu VM se conecta a una dirección IP interna que te pertenece dentro de tu red de VPC.
Dirección Solo saliente: Tu VM inicia una conexión con Google. Bidireccional: Tu VM se conecta al servicio, y el servicio puede iniciar tráfico de retorno.
Alcance Se habilita o inhabilita para toda una subred. Se implementa como un recurso de extremo específico.
Servicios Solo se conecta a las APIs de Google, como las APIs de Cloud Storage, BigQuery o Dataproc. Se conecta a las APIs de Google, a los servicios de otras empresas y a tus propios servicios.

En el caso de Dataproc, el Acceso privado a Google es el método tradicional más simple para permitir que las VMs del clúster se comuniquen con el plano de control de Dataproc. Private Service Connect es un enfoque más reciente y flexible que te brinda un control detallado, en especial en redes complejas o de múltiples inquilinos.

¿Por qué usar Private Service Connect? Incluso si tu clúster de Dataproc tiene direcciones IP solo internas con el Acceso privado a Google habilitado (la configuración predeterminada para los clústeres de la versión de imagen 2.2+), Private Service Connect ofrece las siguientes ventajas:

  • En lugar de usar el conjunto compartido de extremos de Private Google Access para conectarte a las APIs y los servicios de Google, Private Service Connect te permite crear un extremo privado con una dirección IP interna dentro de tu red de VPC que se asigna directamente a un servicio específico de Google.

  • Puedes crear reglas de firewall que permitan el tráfico solo a la dirección IP del extremo de Private Service Connect. Por ejemplo, puedes configurar una regla que permita el tráfico de salida de las VMs del clúster de Dataproc exclusivamente a la dirección IP interna del extremo de Private Service Connect para BigQuery y, al mismo tiempo, deniegue todo el resto del tráfico de salida. Este es un enfoque más seguro que crear reglas de firewall más amplias con el Acceso privado a Google.

  • Usar el extremo de Private Service Connect dentro de tu red de VPC hace que la ruta de red sea explícita y más fácil de auditar para la seguridad y el cumplimiento, ya que el tráfico a un servicio como Cloud Storage no comparte una ruta con otro tráfico de la API.

Rutas privadas y públicas

El acceso privado a Google, Private Service Connect y Cloud NAT permiten que los hosts con direcciones RFC 1918 lleguen a los servicios deGoogle Cloud . También permiten que los recursos de Google Cloud con direccionesRFC 1918privadas inicien conexiones con los servicios de Google Cloud .

Una distinción importante que se debe hacer al evaluar las diferentes opciones de conexión es si el tráfico que usa la conexión sigue siendo privado o viaja a través de la Internet pública.

  • El Acceso privado a Google y Private Service Connect mantienen el tráfico dentro de la red privada de Google. Los datos no viajan a través de Internet pública para llegar a los servicios de Google Cloud , lo que es ideal para la seguridad y el rendimiento predecible.

  • Cloud NAT llega a un servicio Google Cloud conectándose a un extremo público del servicio. El tráfico sale de tu red de VPC a través de la puerta de enlace NAT y viaja por Internet.

Cómo funciona cada opción

A continuación, se incluye un desglose de cada mecanismo de conexión:

Método Ruta de acceso al servicio Extremo de destino Caso de uso principal
Acceso privado a Google Red privada de Google Direcciones IP especiales de Google (private.googleapis.com) Acceso simple a nivel de la subred para que las VMs lleguen a las APIs de Google de forma privada.
Private Service Connect Red privada de Google Un extremo de dirección IP privada dentro de tu red de VPC Acceso seguro y detallado a las APIs de Google, a terceros o a tus propios servicios.
Cloud NAT Internet pública Dirección IP pública del servicio Acceso general a Internet saliente para VMs con direcciones IP privadas.

Configura Private Service Connect

Para usar Private Service Connect con tu clúster de Dataproc, debes configurar los extremos y el DNS necesarios de Private Service Connect en tu red de VPC para todas las APIs de Google de las que depende Dataproc. Para obtener instrucciones sobre cómo configurar tu subred y configurar el DNS, consulta Acerca del acceso a las APIs de Google a través de extremos.

Habilita el intercambio de tráfico si es necesario

Si bien Private Service Connect proporciona acceso privado a muchos servicios de Google, es posible que también debas habilitar el intercambio de tráfico de VPC, en especial en los siguientes casos:

  • Otras redes de nube privada virtual: Private Service Connect se conecta a los servicios administrados por Google, no directamente a otras redes de VPC de clientes. Si tus fuentes de datos, aplicaciones personalizadas o demás servicios se encuentran en una red de VPC diferente a la de tu clúster de Dataproc, por lo general, se requiere el intercambio de tráfico entre redes de VPC para habilitar la comunicación privada entre estas redes.

  • Redes locales: Si tu clúster de Dataproc accede a datos o servicios en tu entorno local, necesitarás una conexión de Cloud VPN o Cloud Interconnect a tu red local, que a menudo se combina con el peering de VPC.

  • Comunicación interna integral con los servicios de Google: Si bien Private Service Connect proporciona acceso privado a los servicios de Google configurados, como Cloud Storage y BigQuery, las comunicaciones internas del plano de control o las funciones específicas de Dataproc pueden requerir la interconexión de VPC a una red con amplia accesibilidad a los servicios de Google para acceder a la infraestructura subyacente de Google o a otras APIs de Google.

  • Acceso a fuentes de datos en otras redes de VPC: Si tus trabajos de Dataproc leen o escriben en fuentes de datos, como Cloud SQL, bases de datos autoadministradas y aplicaciones personalizadas, que se encuentran en una red de VPC diferente, debes establecer el intercambio de tráfico entre la red de VPC de tu clúster de Dataproc y la red de VPC que contiene esas fuentes de datos. Private Service Connect no proporciona comunicación entre redes de VPC para las redes propiedad del cliente.

  • Conectividad híbrida: Para las implementaciones de nube híbrida en las que los clústeres de Dataproc deben interactuar con recursos en un centro de datos local, el intercambio de tráfico entre VPC es fundamental para conectar tu red local a tu red de VPC Google Cloud con Cloud VPN o Cloud Interconnect.

Soluciona problemas de Private Service Connect

Si tu clúster de Dataproc con Private Service Connect (sin intercambio de tráfico entre VPC) no se crea o tiene problemas de conectividad, sigue estos pasos para solucionar el problema:

  • Confirma el acceso a la API requerido:

    • Verifica que todas las APIs de Google necesarias estén habilitadas en tu proyecto Google Cloud .
  • Verifica la configuración del extremo de Private Service Connect:

    • Verifica que un extremo de Private Service Connect esté configurado correctamente para todas las APIs de Google que requiere el clúster, como dataproc.googleapis.com, storage.googleapis.com, logging.googleapis.com, bigquery.googleapis.com y compute.googleapis.com.

    • Usa herramientas como dig o nslookup desde una VM dentro de la subred de VPC para confirmar que los registros DNS de los servicios requeridos se resuelven correctamente en las direcciones IP privadas dentro de tu red de VPC con el extremo de Private Service Connect.

  • Verifica las reglas de firewall:

    • Verifica que las reglas de firewall de tu red de VPC permitan conexiones salientes desde las instancias del clúster de Dataproc a los extremos de Private Service Connect.

    • Si usas la VPC compartida, verifica que las reglas de firewall adecuadas estén configuradas en el proyecto host.

  • Examina los registros del clúster de Dataproc:

    • Revisa los registros de creación del clúster en Logging para detectar errores relacionados con la red, como connection refused, timeout o "unreachable host". Estos errores pueden indicar una ruta faltante o una regla de firewall incorrecta. Examina los registros de la consola en serie de las instancias del clúster.
  • Evalúa la necesidad del intercambio de tráfico entre VPCs:

    • Según las dependencias de la carga de trabajo, si tu clúster de Dataproc requiere conectividad a recursos que no son administrados por Google, como bases de datos en una red de VPC separada y servidores locales, establece el intercambio de tráfico entre VPC.

    • Examina los requisitos de red de los servicios deGoogle Cloud con los que interactúa tu clúster de Dataproc. Es posible que algunos servicios tengan requisitos de interconexión específicos, incluso cuando se usan con Private Service Connect.

Sigue las recomendaciones

  • Planificación integral de la arquitectura de red: Antes de implementar Dataproc con Private Service Connect, diseña cuidadosamente tu arquitectura de red, teniendo en cuenta todas las dependencias implícitas y explícitas, y las rutas de flujo de datos. Esto incluye identificar todas las APIs de Google con las que interactúa tu clúster de Dataproc durante el aprovisionamiento y la operación.

  • Prueba la conectividad: Prueba a fondo la conectividad de red desde tu clúster de Dataproc a todos los servicios y fuentes de datos requeridos durante las fases de desarrollo y de preparación.

  • Usa Network Intelligence Center: Usa las herramientas de Google Cloud Network Intelligence Center, como las Pruebas de conectividad, para diagnosticar y solucionar problemas de conectividad de red.

¿Qué sigue?