Encripta los datos de la carga de trabajo de la GPU en uso con Confidential GKE Nodes


En esta página, se muestra cómo encriptar los datos en uso de cargas de trabajo de GPU ejecutando las cargas de trabajo en nodos confidenciales de Google Kubernetes Engine encriptados. También obtendrás información sobre las limitaciones y consideraciones que se aplican a las cargas de trabajo de GPU que se ejecutan en estos nodos encriptados.

Esta página está dirigida a los ingenieros y operadores de seguridad que desean mejorar la seguridad de los datos en las cargas de trabajo aceleradas, como las tareas de IA/AA. Antes de leer este documento, asegúrate de estar familiarizado con los siguientes conceptos:

Antes de comenzar

Antes de comenzar, asegúrate de haber realizado las siguientes tareas:

  • Habilita la API de Google Kubernetes Engine.
  • Habilitar la API de Google Kubernetes Engine
  • Si deseas usar Google Cloud CLI para esta tarea, instala y, luego, inicializa gcloud CLI. Si ya instalaste gcloud CLI, ejecuta gcloud components update para obtener la versión más reciente.

Disponibilidad

Para usar Confidential GKE Nodes y ejecutar cargas de trabajo de GPU, debes cumplir con todas las siguientes condiciones:

  • Debes usar un clúster en el modo Standard de GKE.
  • El clúster y los nodos deben ejecutar la versión 1.32.2-gke.1297000 de GKE o una posterior.
  • Los nodos deben estar en una zona que admita la función de Confidential Computing de NVIDIA. Para obtener más información, consulta Cómo ver las zonas admitidas.
  • Los nodos deben usar VMs Spot, VMs interrumpibles o inicio flexible con aprovisionamiento en cola.
  • Para usar el inicio flexible con el aprovisionamiento en cola, el clúster debe ejecutar la versión 1.32.2-gke.1652000 de GKE o una posterior.
  • Los nodos deben usar solo una GPU NVIDIA H100 de 80 GB y el tipo de máquina a3-highgpu-1g.
  • Los nodos deben usar la tecnología de Confidential Computing de Intel TDX.
  • Debes tener cuota para las GPU H100 de 80 GB interrumpibles (compute.googleapis.com/preemptible_nvidia_h100_gpus) en las ubicaciones de tus nodos. Para obtener más información sobre cómo administrar tu cuota, consulta Visualiza y administra cuotas.

Roles obligatorios

Para obtener los permisos que necesitas para crear nodos de GKE confidenciales, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto Google Cloud :

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Limitaciones

  • No se admiten los clústeres en modo Autopilot.
  • No se admiten las funciones de uso compartido de GPU, como el uso compartido de tiempo o las GPU de varias instancias.

Habilita Confidential GKE Nodes en el modo estándar

Puedes ejecutar cargas de trabajo de GPU en Confidential GKE Nodes en clústeres o grupos de nodos en modo Standard. Los Confidential GKE Nodes deben usar la tecnología de Confidential Computing de Intel TDX.

Habilita Confidential GKE Nodes en clústeres Standard nuevos

Cuando crees un clúster nuevo en modo estándar que use nodos de GKE confidenciales, asegúrate de especificar la siguiente configuración del clúster:

  • Ubicación: Es una región o una zona que admite la computación confidencial de NVIDIA. Para obtener más información, consulta Cómo ver las zonas admitidas.
  • Tecnología de Confidential Computing: Intel TDX
  • Versión del clúster: 1.32.2-gke.1297000 o posterior

Para obtener instrucciones, consulta Habilita Confidential GKE Nodes en clústeres Standard.

Habilita Confidential GKE Nodes en grupos de nodos estándar nuevos

Puedes habilitar Confidential GKE Nodes en grupos de nodos nuevos si el clúster no tiene habilitados los Confidential GKE Nodes a nivel del clúster. El clúster debe cumplir con los requisitos que se indican en la sección Disponibilidad.

Para crear un grupo de nodos de GPU nuevo que use Confidential GKE Nodes, selecciona una de las siguientes opciones:

Console

  1. Ir a clústeres de Kubernetes

  2. Haz clic en el nombre del clúster en modo estándar que deseas modificar.
  3. Haz clic en Agregar grupo de nodos. Se abrirá la página Agregar un grupo de nodos.
  4. En el panel Detalles del grupo de nodos, haz lo siguiente:
    1. Selecciona Especificar ubicaciones de nodos.
    2. Selecciona solo las zonas admitidas que se indican en la sección Disponibilidad.
    3. Asegúrate de que la versión del plano de control sea 1.32.2-gke.1297000 o posterior.
  5. En el menú de navegación, haz clic en Nodos.
  6. En el panel Configurar parámetros del nodo, haz lo siguiente:
    1. En la sección Configuración de la máquina, haz clic en GPUs.
    2. En el menú Tipo de GPU, selecciona NVIDIA H100 80 GB.
    3. En el menú Cantidad de GPU, selecciona 1.
    4. Asegúrate de que la opción Habilitar el uso compartido de la GPU no esté seleccionada.
    5. En la sección GPU Driver installation, selecciona User-managed.
    6. En la sección Tipo de máquina, asegúrate de que el tipo de máquina sea a3-highgpu-1g.
    7. Selecciona Habilitar nodos en VMs Spot.
  7. Cuando esté todo listo para crear el grupo de nodos, haz clic en Crear.

gcloud

Puedes crear grupos de nodos de GPU que ejecuten Confidential GKE Nodes en VMs Spot o con el inicio flexible con aprovisionamiento en cola (vista previa).

  • Crea un grupo de nodos de GPU que ejecute nodos confidenciales de GKE en VMs Spot:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    Reemplaza lo siguiente:

    • NODE_POOL_NAME: Es el nombre de tu grupo de nodos nuevo.
    • CLUSTER_NAME: Es el nombre del clúster existente.
    • LOCATION: Es la ubicación de tu grupo de nodos nuevo. La ubicación debe admitir el uso de GPUs en Confidential GKE Nodes.
    • NODE_LOCATION1,NODE_LOCATION2,...: Es una lista de zonas separadas por comas en las que se ejecutarán los nodos. Estas zonas deben admitir el uso de Confidential Computing de NVIDIA. Para obtener más información, consulta Cómo ver las zonas admitidas.
  • Crea un grupo de nodos de GPU que ejecute Confidential GKE Nodes con el inicio flexible con aprovisionamiento en cola (vista previa):

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    Reemplaza TOTAL_MAX_NODES por la cantidad máxima de nodos a la que el grupo de nodos puede escalar automáticamente.

    Para obtener más información sobre las opciones de configuración en el inicio flexible con aprovisionamiento en cola, consulta Ejecuta una carga de trabajo a gran escala con el inicio flexible con aprovisionamiento en cola.

Habilita Confidential GKE Nodes en grupos de nodos estándar existentes

Puedes actualizar los grupos de nodos estándar existentes para usar Flex-start si el clúster no tiene habilitados los nodos de Confidential GKE Node a nivel del clúster. Asegúrate de que el clúster y el grupo de nodos existente cumplan con los requisitos que se indican en la sección Disponibilidad.

Para actualizar tus grupos de nodos para que usen la tecnología de Confidential Computing de Intel TDX, consulta Actualiza un grupo de nodos existente.

Instala controladores de GPU que admitan Confidential GKE Nodes

Después de habilitar los nodos confidenciales de GKE en tu grupo de nodos con GPU, debes instalar los controladores que admitan la ejecución de cargas de trabajo de GPU en estos nodos.

Este cambio requiere volver a crear los nodos, lo que puede causar interrupciones en tus cargas de trabajo en ejecución. Para obtener detalles sobre este cambio específico, busca la fila correspondiente en la tabla de cambios manuales que recrean los nodos con una estrategia de actualización de nodos sin respetar las políticas de mantenimiento. Para obtener más información sobre las actualizaciones de nodos, consulta Planificación de interrupciones por actualizaciones de nodos.

Para obtener instrucciones, consulta la pestaña "COS" en Instala controladores de GPU de NVIDIA de forma manual.

Solucionar problemas

Para obtener información sobre la solución de problemas, consulta Soluciona problemas de las GPUs en GKE.

¿Qué sigue?