Prácticas recomendadas de seguridad de Dataproc

Proteger tu entorno de Dataproc es fundamental para proteger los datos sensibles y evitar el acceso no autorizado. En este documento, se describen las prácticas recomendadas clave para mejorar tu postura de seguridad de Dataproc, incluidas las recomendaciones para la seguridad de la red, Identity and Access Management, la encriptación y la configuración segura del clúster.

Seguridad de redes

  • Implementa Dataproc en una VPC privada. Crear una nube privada virtual dedicada para tus clústeres de Dataproc y aislarlos de otras redes y de la Internet pública

  • Usa IP privadas. Si quieres proteger tus clústeres de Dataproc de la exposición a la Internet pública, usa direcciones IP privadas para mejorar la seguridad y el aislamiento.

  • Configura reglas de firewall. Implementa reglas de firewall estrictas para controlar el tráfico desde y hacia los clústeres de Dataproc. Permite solo los puertos y protocolos necesarios.

  • Usa el intercambio de tráfico entre redes. Para mejorar el aislamiento, establece un intercambio de tráfico entre redes de VPC entre tu VPC de Dataproc y otras VPC sensibles para una comunicación controlada.

  • Habilita la puerta de enlace de componentes. Habilita la puerta de enlace de componentes de Dataproc cuando crees clústeres para acceder de forma segura a las IU del ecosistema de Hadoop, como la IU del servidor YARN, HDFS o Spark, en lugar de abrir los puertos del firewall.

Identity and Access Management

  • Aísla permisos. Usa diferentes cuentas de servicio del plano de datos para los distintos clústeres. Asigna a las cuentas de servicio solo los permisos que necesitan los clústeres para ejecutar sus cargas de trabajo.

  • Evita depender de la cuenta de servicio predeterminada de Google Compute Engine (GCE). No uses la cuenta de servicio predeterminada para tus clústeres.

  • Cumplir con el principio de privilegio mínimo. Otorga solo los permisos mínimos necesarios a las cuentas de servicio y los usuarios de Dataproc.

  • Aplicar control de acceso basado en funciones (RBAC). Considera configurar los permisos de IAM para cada clúster.

  • Usa roles personalizados. Crear roles personalizados de IAM detallados y adaptados a funciones de trabajo específicas dentro de tu entorno de Dataproc

  • Revísalos con regularidad. Audita con frecuencia los permisos y las funciones de IAM para identificar y quitar los privilegios excesivos o sin usar.

Encriptación

  • Encriptar datos en reposo. Para la encriptación de datos en reposo, usa Cloud Key Management Service (KMS) o claves de encriptación administradas por el cliente (CMEK). Además, usa políticas de la organización a fin de aplicar la encriptación de datos en reposo para la creación de clústeres.

  • Encripta los datos en tránsito. Habilitar SSL/TLS para la comunicación entre los componentes de Dataproc (mediante la habilitación del modo seguro de Hadoop) y los servicios externos Esto protege los datos en movimiento.

  • Ten cuidado con los datos sensibles. Ten cuidado cuando almacenes y pases datos sensibles como PII o contraseñas. Cuando sea necesario, usa soluciones de administración de encriptación y secretos.

Configuración segura del clúster

  • Autentica mediante Kerberos. Para evitar el acceso no autorizado a los recursos del clúster, implementa el modo seguro de Hadoop con la autenticación Kerberos. Para obtener más información, consulta Protege la función multiusuario con Kerberos.

  • Usa una contraseña raíz principal segura y un almacenamiento basado en KMS seguro. En el caso de los clústeres que usan Kerberos, Dataproc configura automáticamente funciones de endurecimiento de la seguridad para todos los componentes de código abierto que se ejecutan en el clúster.

  • Habilita el Acceso al SO. Habilita el Acceso al SO para obtener mayor seguridad cuando administras los nodos del clúster con SSH.

  • Segrega la etapa de pruebas y los buckets temporales en Google Cloud Storage (GCS). Para garantizar el aislamiento de permisos, segrega los buckets temporales y de etapa de pruebas en cada clúster de Dataproc.

  • Usa Secret Manager para almacenar credenciales. Secret Manager puede proteger tus datos sensibles, como tus claves de API, contraseñas y certificados. Úsalo para administrar y auditar tus secretos en Google Cloud, además de acceder a ellos.

  • Usa restricciones organizativas personalizadas. Puedes usar una política de la organización personalizada para permitir o rechazar operaciones específicas en clústeres de Dataproc. Por ejemplo, si una solicitud para crear o actualizar un clúster no cumple con la validación de restricciones personalizadas establecida por la política de la organización, la solicitud falla y se muestra un error al emisor.

¿Qué sigue?

Obtén más información sobre otras funciones de seguridad de Dataproc: