Claves de encriptación administradas por el cliente (CMEK)

Cuando utilizas Dataproc, los datos del trabajo y del clúster se almacenan en discos persistentes asociados a las VMs de Compute Engine en tu clúster y en un bucket de staging de Cloud Storage. Estos datos del disco persistente y del bucket se encriptan con una clave de encriptación de datos (DEK) generada por Google y una clave de encriptación de claves (KEK).

La función de CMEK te permite crear, usar y revocar la clave de encriptación de claves (KEK). Google aún controla la clave de encriptación de datos (DEK). Para obtener más información sobre las claves de encriptación de datos de Google, consulta Encriptación en reposo.

Usa CMEK con datos del clúster

Puedes usar claves de encriptación administradas por el cliente (CMEK) para encriptar los siguientes datos del clúster:

  • Datos en los discos persistentes adjuntos a las VMs de tu clúster de Dataproc
  • Datos de argumentos de trabajos enviados a tu clúster, como una cadena de consulta enviada con un trabajo de Spark SQL
  • Metadatos del clúster, resultado del controlador del trabajo y otros datos escritos en un bucket de staging de Dataproc que crees

Sigue estos pasos para usar CMEK con la encriptación de datos del clúster:

  1. Crea una o más claves con Cloud Key Management Service. El nombre del recurso, también llamado ID de recurso de una clave, que usarás en los pasos siguientes, se construye de la siguiente manera:
    projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
    
  2. Asigna los siguientes roles a las siguientes cuentas de servicio:

    1. Sigue el elemento núm. 5 en Compute Engine→Protege los recursos con las claves de Cloud KMS→Antes de comenzar para asignar la función CryptoKey Encrypter/Decrypter de Cloud KMS a la cuenta de servicio del agente de servicios de Compute Engine.
    2. Asigna la función de encriptador/desencriptador de CryptoKey de Cloud KMS a la cuenta de servicio del agente de servicio de Cloud Storage.

    3. Asigna la función de encriptador/desencriptador de CryptoKey de Cloud KMS a la cuenta de servicio del agente de servicio de Dataproc. Puedes usar Google Cloud CLI para asignar la función:

        gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
        --member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
        --role roles/cloudkms.cryptoKeyEncrypterDecrypter
      

      Reemplaza lo siguiente:

      KMS_PROJECT_ID: Es el ID de tu proyecto Google Cloud que ejecuta Cloud KMS. Este proyecto también puede ser el que ejecuta los recursos de Dataproc.

      PROJECT_NUMBER: Es el número del proyecto (no el ID del proyecto de Google Cloud que ejecuta recursos de Dataproc.

    4. Habilita la API de Cloud KMS en el proyecto que ejecuta los recursos de Dataproc.

    5. Si el rol de agente de servicio de Dataproc no está asociado a la cuenta de servicio del agente de servicio de Dataproc, agrega el permiso serviceusage.services.use al rol personalizado asociado a la cuenta de servicio del agente de servicio de Dataproc. Si el rol de agente de servicio de Dataproc está asociado a la cuenta de servicio del agente de servicio de Dataproc, puedes omitir este paso.

  3. Pasa el ID del recurso de tu clave a Google Cloud CLI o a la API de Dataproc para usarlo con la encriptación de datos del clúster.

    gcloud CLI

    • Para encriptar los datos del disco persistente del clúster con tu clave, pasa el ID del recurso de tu clave a la marca --gce-pd-kms-key cuando crees el clúster.
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --gce-pd-kms-key='projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME' \
          other arguments ...
      

      Puedes verificar la configuración de la clave desde la herramienta de línea de comandos de gcloud.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
      

      Fragmento del resultado del comando:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name
      ...
      
    • Para encriptar los datos del disco persistente del clúster y los datos de los argumentos del trabajo con tu clave, pasa el ID del recurso de la clave a la marca --kms-key cuando crees el clúster. Consulta Cluster.EncryptionConfig.kmsKey para obtener una lista de los tipos de trabajos y argumentos que se encriptan con la marca --kms-key.
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --kms-key='projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME' \
          other arguments ...
        

      Puedes verificar la configuración de la clave con el comando dataproc clusters describe de gcloud CLI. El ID del recurso de la clave se configura en gcePdKmsKeyName y kmsKey para usar tu clave con la encriptación de los datos de argumentos del trabajo y del disco persistente del clúster.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
        

      Fragmento del resultado del comando:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/key-KEY_RING_NAME-name/cryptoKeys/KEY_NAME
      ...
      

    • Para encriptar los metadatos del clúster, el controlador del trabajo y otros datos de salida escritos en tu bucket de etapa de pruebas de Dataproc en Cloud Storage, haz lo siguiente:
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --bucket=CMEK_BUCKET_NAME \
          other arguments ...
          

      También puedes pasar buckets habilitados para CMEK al comando "gcloud dataproc jobs submit" si tu trabajo toma argumentos de bucket, como se muestra en el siguiente ejemplo de "cmek-bucket":

      gcloud dataproc jobs submit pyspark gs://cmek-bucket/wordcount.py \
          --region=region \
          --cluster=cluster-name \
          -- gs://cmek-bucket/shakespeare.txt gs://cmek-bucket/counts
        

    API de REST

    • Para encriptar los datos del disco persistente de la VM del clúster con tu clave, incluye el campo ClusterConfig.EncryptionConfig.gcePdKmsKeyName como parte de una solicitud cluster.create.

      Puedes verificar la configuración de la clave con el comando dataproc clusters describe de gcloud CLI.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
      

      Fragmento del resultado del comando:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      ...
      
    • Para encriptar los datos del disco persistente de la VM del clúster y los datos de los argumentos del trabajo con tu clave, incluye el campo Cluster.EncryptionConfig.kmsKey como parte de una solicitud cluster.create. Consulta Cluster.EncryptionConfig.kmsKey para obtener una lista de los tipos de trabajos y argumentos que se encriptan con el campo --kms-key.

      Puedes verificar la configuración de la clave con el comando dataproc clusters describe de gcloud CLI. El ID del recurso de la clave se configura en gcePdKmsKeyName y kmsKey para usar tu clave con la encriptación de los datos de argumentos del trabajo y del disco persistente del clúster.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
      

      Fragmento del resultado del comando:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      
    • To encrypt cluster metadata, job driver, and other output data written to your Dataproc staging bucket in Cloud Storage:
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --bucket=CMEK_BUCKET_NAMEt \
          other arguments ...
      

      También puedes pasar buckets habilitados para CMEK al comando "gcloud dataproc jobs submit" si tu trabajo toma argumentos de bucket, como se muestra en el siguiente ejemplo de "cmek-bucket":

      gcloud dataproc jobs submit pyspark gs://cmek-bucket/wordcount.py \
          --region=region \
          --cluster=cluster-name \
          -- gs://cmek-bucket/shakespeare.txt gs://cmek-bucket/counts
        

Usa CMEK con datos de plantillas de flujo de trabajo

Los datos de argumentos de trabajos de plantillas de flujos de trabajo de Dataproc, como la cadena de consulta de un trabajo de Spark SQL, se pueden encriptar con la CMEK. Sigue los pasos 1, 2 y 3 de esta sección para usar CMEK con tu plantilla de flujo de trabajo de Dataproc. Consulta WorkflowTemplate.EncryptionConfig.kmsKey para obtener una lista de los tipos de trabajos y argumentos de plantillas de flujos de trabajo que se encriptan con la CMEK cuando se habilita esta función.

  1. Crea una clave con Cloud Key Management Service (Cloud KMS). El nombre del recurso de la clave, que usarás en los pasos siguientes, se construye de la siguiente manera:
    projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name
    
  2. Para habilitar las cuentas de servicio de Dataproc para que usen tu clave, haz lo siguiente:

    1. Asigna el rol CryptoKey Encrypter/Decrypter de Cloud KMS a la cuenta de servicio del agente de servicios de Dataproc. Puedes usar gcloud CLI para asignar el rol:

       gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
       --member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
       --role roles/cloudkms.cryptoKeyEncrypterDecrypter
      

      Reemplaza lo siguiente:

      KMS_PROJECT_ID: Es el ID de tu proyecto Google Cloud que ejecuta Cloud KMS. Este proyecto también puede ser el que ejecuta los recursos de Dataproc.

      PROJECT_NUMBER: Es el número del proyecto (no el ID del proyecto de Google Cloud que ejecuta recursos de Dataproc.

    2. Habilita la API de Cloud KMS en el proyecto que ejecuta los recursos de Dataproc.

    3. Si el rol de agente de servicio de Dataproc no está asociado a la cuenta de servicio del agente de servicio de Dataproc, agrega el permiso serviceusage.services.use al rol personalizado asociado a la cuenta de servicio del agente de servicio de Dataproc. Si el rol de agente de servicio de Dataproc está adjunto a la cuenta de servicio del agente de servicio de Dataproc, puedes omitir este paso.

  3. Puedes usar Google Cloud CLI o la API de Dataproc para establecer la clave que creaste en el paso 1 en un flujo de trabajo. Una vez que se establece la clave en un flujo de trabajo, todos los argumentos y las consultas del trabajo del flujo de trabajo se encriptan con la clave para cualquiera de los tipos de trabajo y argumentos que se enumeran en WorkflowTemplate.EncryptionConfig.kmsKey.

    gcloud CLI

    Pasa el ID del recurso de tu clave a la marca --kms-key cuando crees la plantilla de flujo de trabajo con el comando gcloud dataproc workflow-templates create.

    Ejemplo:

    gcloud dataproc workflow-templates create my-template-name \
        --region=region \
        --kms-key='projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name' \
        other arguments ...
    
    Puedes verificar la configuración de la clave desde la herramienta de línea de comandos de gcloud.
    gcloud dataproc workflow-templates describe TEMPLATE_NAME \
        --region=REGION
    
    ...
    id: my-template-name
    encryptionConfig:
    kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
    ...
    

    API de REST

    Usa WorkflowTemplate.EncryptionConfig.kmsKey como parte de una solicitud workflowTemplates.create.

    Puedes verificar la configuración de la clave con una solicitud workflowTemplates.get. El JSON que se devuelve contiene las listas de kmsKey:

    ...
    "id": "my-template-name",
    "encryptionConfig": {
      "kmsKey": "projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name"
    },
    

Cloud External Key Manager

Cloud External Key Manager (Cloud EKM) te permite proteger los datos de Dataproc con claves administradas por un socio externo de administración de claves compatible. Los pasos que debes seguir para usar EKM en Dataproc son los mismos que usas para configurar claves CMEK, con la siguiente diferencia: tu clave apunta a un URI para la clave administrada de forma externa (consulta Descripción general de Cloud EKM).

Errores de Cloud EKM

Cuando usas Cloud EKM, un intento de crear un clúster puede fallar debido a errores asociados con entradas, Cloud EKM, el sistema de administración de claves externas, o comunicaciones entre EKM y el sistema externo. Si usas la API de REST o la consola de Google Cloud , los errores se registran en Logging. Puedes examinar los errores del clúster con errores desde la pestaña Ver registro.