En esta página se explica cómo configurar la conectividad de red para clústeres de Dataproc al usar Private Service Connect. En él se explica la interacción entre Private Service Connect y el peering de nube privada virtual en diferentes casos prácticos de Dataproc. También se resumen las similitudes y diferencias entre las funciones de Acceso privado de Google, Private Service Connect y Cloud NAT.
Información general
Los clústeres de Dataproc requieren conectividad de red aGoogle Cloud APIs y servicios, como la API de Dataproc, Cloud Storage y Cloud Logging, así como a recursos de usuario, como fuentes de datos en otras redes de nube privada virtual o entornos on-premise.
De forma predeterminada, los clústeres de Dataproc creados con versiones de imagen 2.2
y posteriores
se crean solo con direcciones IP internas. Dataproc habilita automáticamente el acceso privado de Google en la subred regional que usa el clúster solo con IP interna para permitir las conexiones a las APIs y los servicios de Google sin conectarse a Internet público.
Para tener un control más granular de la red, puedes configurar un clúster para que use Private Service Connect, que enruta el tráfico a las APIs y los servicios de Google admitidos a través de un endpoint privado de tu red de VPC. Esto puede ser beneficioso para la seguridad y el cumplimiento.
Opciones de redes privadas habituales
En esta sección se describen las funciones y las diferencias de Acceso privado a Google, Private Service Connect y Cloud NAT.
Acceso privado de Google es una ruta unidireccional para que las VMs lleguen a los servicios públicos de Google sin usar Internet. Es similar a una salida especial de una carretera de tu barrio (subred de VPC) que lleva directamente al centro comercial de servicios de Google, sin pasar por carreteras públicas. Todos los vecinos pueden usarla. Dataproc habilita automáticamente el acceso privado a Google en la subred regional que usan los clústeres de Dataproc sin servidor creados con la versión de imagen
2.2
o posterior.Private Service Connect crea un punto final privado bidireccional para un servicio que se encuentra en tu red de VPC. Es similar a una ruta privada dedicada desde tu ubicación (red de VPC) directamente a un servicio. Tiene una dirección en tu ubicación (una dirección IP interna en tu red de VPC) y solo tú puedes usarla.
Cloud NAT permite que las VMs con direcciones IP privadas accedan a Internet.
Funciones y diferencias
Función | Acceso privado de Google (PGA) | Private Service Connect (PSC) |
---|---|---|
Cómo funciona | Dirige el tráfico de una VM a un intervalo de direcciones IP de Google especial (private.googleapis.com ). |
Crea una regla de reenvío (endpoint) en tu red de VPC que representa el servicio de Google. |
Dirección IP | Tu máquina virtual se conecta a una dirección IP propiedad de Google. | Tu VM se conecta a una dirección IP interna que te pertenece en tu red de VPC. |
Dirección | Solo saliente: tu VM inicia una conexión con Google. | Bidireccional: tu VM se conecta al servicio y el servicio puede iniciar el tráfico de retorno. |
Ámbito | Habilitado o inhabilitado en toda una subred. | Se implementa como un recurso de endpoint específico. |
Servicios | Solo se conecta a APIs de Google, como las APIs Cloud Storage, BigQuery o Dataproc. | Se conecta a las APIs de Google, a los servicios de otras empresas y a tus propios servicios. |
En Dataproc, el acceso privado de Google es el método más sencillo y tradicional para permitir que las VMs de los clústeres se pongan en contacto con el plano de control de Dataproc. Private Service Connect es un enfoque más reciente y flexible que te ofrece un control preciso, sobre todo en redes complejas o multitenant.
¿Por qué usar Private Service Connect? Aunque tu clúster de Dataproc tenga direcciones IP solo internas con acceso privado a Google habilitado (la configuración predeterminada de los clústeres de la versión de imagen 2.2+
), Private Service Connect ofrece las siguientes ventajas:
En lugar de usar el conjunto compartido de endpoints de Acceso privado de Google para conectarte a las APIs y los servicios de Google, Private Service Connect te permite crear un endpoint privado con una dirección IP interna en tu red de VPC que se asigna directamente a un servicio de Google específico.
Puedes crear reglas de cortafuegos que permitan el tráfico solo a la dirección IP del endpoint de Private Service Connect. Por ejemplo, puedes configurar una regla que permita el tráfico saliente de las VMs de clúster de Dataproc exclusivamente a la dirección IP interna del endpoint de Private Service Connect de BigQuery, al tiempo que deniega todo el resto del tráfico saliente. Este enfoque es más seguro que crear reglas de cortafuegos más amplias con Acceso privado de Google.
Al usar el endpoint de Private Service Connect en tu red de VPC, la ruta de la red es explícita y más fácil de auditar para comprobar la seguridad y el cumplimiento, ya que el tráfico a un servicio como Cloud Storage no comparte una ruta con otro tráfico de API.
Rutas privadas y públicas
Private Google Access, Private Service Connect y Cloud NAT permiten que los hosts con direcciones RFC 1918
accedan a serviciosGoogle Cloud . También permiten que los recursos de Google Cloud con direcciones RFC 1918
privadas inicien conexiones con servicios de Google Cloud .
Una distinción importante que hay que tener en cuenta al evaluar las diferentes opciones de conexión es si el tráfico que utiliza la conexión sigue siendo privado o se transmite a través de Internet público.
El acceso privado a Google y Private Service Connect mantienen el tráfico dentro de la red privada de Google. Los datos no viajan por Internet público para llegar a los servicios de Google Cloud , lo que resulta ideal para la seguridad y el rendimiento predecible.
Cloud NAT accede a un Google Cloud servicio conectándose a un endpoint público del servicio. El tráfico sale de tu red de VPC a través de la pasarela NAT y viaja por Internet.
Cómo funciona cada opción
A continuación, se describe cada mecanismo de conexión:
Método | Ruta al servicio | Punto final de destino | Caso práctico principal |
---|---|---|---|
Acceso privado de Google | Red privada de Google | Direcciones IP especiales de Google (private.googleapis.com ) |
Acceso sencillo a nivel de subred para que las VMs accedan a las APIs de Google de forma privada. |
Private Service Connect | Red privada de Google | Un endpoint de dirección IP privada dentro de tu red de VPC | Acceso granular y seguro a las APIs de Google, a terceros o a tus propios servicios. |
Cloud NAT | Internet con acceso público | Dirección IP pública del servicio | Acceso general a Internet de salida para VMs con direcciones IP privadas. |
Configurar Private Service Connect
Para usar Private Service Connect con tu clúster de Dataproc, debes configurar los endpoints y el DNS de Private Service Connect necesarios en tu red de VPC para todas las APIs de Google de las que depende Dataproc. Para obtener instrucciones sobre cómo configurar tu subred y el DNS, consulta Información sobre el acceso a las APIs de Google a través de endpoints.
Habilita el peering si es necesario
Aunque Private Service Connect proporciona acceso privado a muchos servicios de Google, es posible que también tengas que habilitar el emparejamiento entre VPCs, sobre todo en los siguientes casos:
Otras redes de nube privada virtual: Private Service Connect se conecta a servicios gestionados por Google, no directamente a otras redes de VPC de clientes. Si tus fuentes de datos, aplicaciones personalizadas u otros servicios se encuentran en una red de VPC diferente a la de tu clúster de Dataproc, normalmente se requiere el emparejamiento de VPC para habilitar la comunicación privada entre estas redes.
Redes locales: si tu clúster de Dataproc accede a datos o servicios de tu entorno local, necesitarás una conexión Cloud VPN o Cloud Interconnect a tu red local, que a menudo se combina con el emparejamiento de VPCs.
Comunicación interna completa con los servicios de Google: aunque Private Service Connect proporciona acceso privado a los servicios de Google configurados, como Cloud Storage y BigQuery, las comunicaciones internas del plano de control o las funciones específicas de Dataproc pueden requerir el peering de VPC a una red con una amplia accesibilidad a los servicios de Google para acceder a la infraestructura subyacente de Google u otras APIs de Google.
Acceso a fuentes de datos de otras redes de VPC: si tus trabajos de Dataproc leen o escriben en fuentes de datos, como Cloud SQL, bases de datos autogestionadas y aplicaciones personalizadas, que se encuentran en otra red de VPC, debes establecer el peering de VPC entre la red de VPC de tu clúster de Dataproc y la red de VPC que contiene esas fuentes de datos. Private Service Connect no proporciona comunicación entre redes de VPCs entre redes propiedad de clientes.
Conectividad híbrida: en las implementaciones de nube híbrida en las que los clústeres de Dataproc deben interactuar con recursos de un centro de datos on-premise, el emparejamiento de VPC es esencial para conectar tu red on-premise con tu red de Google Cloud VPC mediante Cloud VPN o Cloud Interconnect.
Solucionar problemas de Private Service Connect
Si tu clúster de Dataproc con Private Service Connect (sin peering de VPC) no se crea o tiene problemas de conectividad, sigue estos pasos para solucionar el problema:
Confirma el acceso a la API necesario:
- Comprueba que todas las APIs de Google necesarias estén habilitadas en tu Google Cloud proyecto.
Verifica la configuración del endpoint de Private Service Connect:
Verifica que un endpoint de Private Service Connect esté configurado correctamente para todas las APIs de Google que necesite el clúster, como
dataproc.googleapis.com
,storage.googleapis.com
,logging.googleapis.com
,bigquery.googleapis.com
ycompute.googleapis.com
.Usa herramientas como
dig
onslookup
desde una VM de la subred de la VPC para confirmar que los registros DNS de los servicios necesarios se resuelven correctamente en las direcciones IP privadas de tu red de VPC mediante el endpoint de Private Service Connect.
Comprueba las reglas de cortafuegos:
Verifica que las reglas de cortafuegos de tu red de VPC permitan las conexiones salientes de las instancias del clúster de Dataproc a los endpoints de Private Service Connect.
Si usas una VPC compartida, comprueba que las reglas de cortafuegos adecuadas estén configuradas en el proyecto host.
Examina los registros del clúster de Dataproc:
- Consulta los registros de creación de clústeres en Logging para ver si hay errores relacionados con la red, como
connection refused
,timeout
o "unreachable host
. Estos errores pueden indicar que falta una ruta o que la regla de cortafuegos es incorrecta. Examina los registros de la consola serie de las instancias del clúster.
- Consulta los registros de creación de clústeres en Logging para ver si hay errores relacionados con la red, como
Evalúa si necesitas el emparejamiento de VPC:
En función de las dependencias de la carga de trabajo, si tu clúster de Dataproc requiere conectividad con recursos que no están gestionados por Google, como bases de datos en una red VPC independiente y servidores on-premise, establece el peering de VPC.
Consulta los requisitos de red de losGoogle Cloud servicios con los que interactúa tu clúster de Dataproc. Algunos servicios pueden tener requisitos de peering específicos incluso cuando se usan con Private Service Connect.
Siga las prácticas recomendadas
Planificación exhaustiva de la arquitectura de red: antes de implementar Dataproc con Private Service Connect, diseña cuidadosamente tu arquitectura de red, teniendo en cuenta todas las dependencias implícitas y explícitas, así como las rutas de flujo de datos. Esto incluye la identificación de todas las APIs de Google con las que interactúa tu clúster de Dataproc durante el aprovisionamiento y el funcionamiento.
Probar la conectividad: prueba a fondo la conectividad de red desde tu clúster de Dataproc a todos los servicios y fuentes de datos necesarios durante las fases de desarrollo y de staging.
Usa Network Intelligence Center: utiliza las herramientas de Network Intelligence Center, como Pruebas de conectividad, para diagnosticar y solucionar problemas de conectividad de red. Google Cloud
Siguientes pasos
- Consulta más información sobre Private Service Connect.
- Familiarízate con el emparejamiento entre redes de VPC.
- Consulta la configuración de red de los clústeres de Dataproc.