Crea una VM optimizada para aceleradores


En este documento, se explica cómo crear una VM que usa una familia de máquinas optimizada para aceleradores. La familia de máquinas optimizadas para aceleradores está disponible en los tipos de máquinas A3, A2 y G2.

Cada tipo de máquina optimizada para acelerador tiene un modelo específico de GPU de NVIDIA conectada.

Antes de comenzar

  • Para revisar los pasos de requisitos previos adicionales, como seleccionar una imagen de SO y verificar la cuota de GPU, revisa el documento de descripción general.
  • Si aún no lo hiciste, configura la autenticación. La autenticación es el proceso mediante el cual se verifica tu identidad para acceder a los servicios y las APIs de Google Cloud . Para ejecutar código o muestras desde un entorno de desarrollo local, puedes autenticarte en Compute Engine seleccionando una de las siguientes opciones:

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    gcloud

    1. Install the Google Cloud CLI, then initialize it by running the following command:

      gcloud init
    2. Set a default region and zone.
    3. REST

      Para usar las muestras de la API de REST en esta página en un entorno de desarrollo local, debes usar las credenciales que proporcionas a la CLI de gcloud.

        Install the Google Cloud CLI, then initialize it by running the following command:

        gcloud init

      Si deseas obtener más información, consulta Autentica para usar REST en la documentación de autenticación de Google Cloud .

Roles obligatorios

Para obtener los permisos que necesitas a fin de finalizar de forma automática, pídele al administrador que te otorgue el rol de IAM Administrador de instancias de Compute (v1) (roles/compute.instanceAdmin.v1) IAM en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para crear VM. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para crear VM:

  • compute.instances.create en el proyecto
  • Si deseas usar una imagen personalizada para crear la VM, sigue estos pasos: compute.images.useReadOnly en la imagen
  • Para usar una instantánea a fin de crear la VM, haz lo siguiente: compute.snapshots.useReadOnly en la instantánea
  • Si quieres usar una plantilla de instancias para crear la VM, sigue estos pasos: compute.instanceTemplates.useReadOnly en la plantilla de instancias
  • Para asignar una red heredada a la VM, ejecuta compute.networks.use en el proyecto.
  • Si deseas especificar una dirección IP estática para la VM: compute.addresses.use en el proyecto
  • Para asignar una dirección IP externa a la VM cuando se usa una red heredada, ejecuta compute.networks.useExternalIp en el proyecto
  • A fin de especificar una subred para tu VM: compute.subnetworks.use en el proyecto o en la subred elegida
  • Para asignar una dirección IP externa a la VM cuando se usa una red de VPC, compute.subnetworks.useExternalIp en el proyecto o en la subred elegida.
  • Para configurar los metadatos de la instancia de VM para la VM, compute.instances.setMetadata en el proyecto.
  • Para configurar etiquetas en la VM, haz lo siguiente: compute.instances.setTags en la VM
  • Para configurar etiquetas en la VM, haz lo siguiente: compute.instances.setLabels en la VM
  • A fin de configurar una cuenta de servicio para que la VM use: compute.instances.setServiceAccount en la VM
  • Crear un disco nuevo para la VM: compute.disks.create en el proyecto
  • Para conectar un disco existente en modo de solo lectura o de lectura y escritura, usa compute.disks.use en el disco.
  • Para conectar un disco existente en modo de solo lectura, haz lo siguiente: compute.disks.useReadOnly en el disco

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Crea una VM que tenga GPUs conectadas

Puedes crear una VM optimizada para aceleradores A3, A2 o G2 con la consola deGoogle Cloud , Google Cloud CLI o REST.

Para realizar algunas personalizaciones en las VMs de G2, es posible que debas usar Google Cloud CLI o REST. Consulta las limitaciones de G2.

Console

  1. En la consola de Google Cloud , ve a la página Crear una instancia.

    Ir a Crear una instancia

  2. Especifica un Nombre para la VM. Consulta la convención de asignación de nombres de recursos.

  3. Selecciona una región y una zona en las que las GPU estén disponibles. Consulta la lista de regiones y zonas de GPU disponibles.

  4. En la sección Configuración de la máquina, selecciona la familia de máquinas GPU y, luego, haz lo siguiente:

    1. En la lista Tipo de GPU, selecciona el tipo de GPU.

      • En las VMs optimizadas para aceleradores A3, selecciona NVIDIA H100 80GB o NVIDIA H100 80GB MEGA.
      • En las VMs optimizadas para aceleradores A2, selecciona NVIDIA A100 40GB o NVIDIA A100 80GB.
      • En las VMs optimizadas para aceleradores G2, selecciona NVIDIA L4.
    2. En la lista Cantidad de GPU, selecciona la cantidad.

    3. Si tu modelo de GPU es compatible con estaciones de trabajo virtuales (vWS) de NVIDIA RTX para cargas de trabajo de gráficos y planeas ejecutar cargas de trabajo de alto contenido gráfico en esta VM, selecciona Habilitar Estación de trabajo virtual (NVIDIA GRID):

  5. En la sección Disco de arranque, haz clic en Cambiar. Se abrirá la página Configuración del disco de arranque.

  6. En la página Configuración del disco de arranque, haz lo siguiente:

    1. En la pestaña Imágenes públicas, elige una imagen de Compute Engine compatible o una Deep Learning VM Image.
    2. Especifica un tamaño de disco de arranque de al menos 40 GB.
    3. Para confirmar las opciones del disco de arranque, haz clic en Seleccionar.
  7. Opcional: Configura el modelo de aprovisionamiento. Por ejemplo, si tu carga de trabajo es tolerante a errores y puede soportar una posible interrupción de la VM, considera usar VMs Spot para reducir el costo de tus VMs y las GPUs adjuntas. Para obtener más información, consulta GPU en VMs Spot. Para hacerlo, sigue los pasos que se indican a continuación:

    1. En la sección Políticas de disponibilidad, selecciona Spot de la lista Modelo de aprovisionamiento de VM. Esta configuración inhabilita las opciones de reinicio automático y mantenimiento del host de la VM.
    2. Opcional: En la lista Cuando se finaliza la VM, selecciona lo que sucede cuando Compute Engine interrumpe la VM:
      • Para detener la VM durante la interrupción, selecciona Detener (predeterminado).
      • Para borrar la VM durante la interrupción, selecciona Borrar.
  8. Para crear y, también, iniciar la VM, haz clic en Crear.

gcloud

Para crear y, luego, iniciar una VM, usa el comando gcloud compute instances create con las siguientes marcas. Las VMs con GPU no se pueden migrar en vivo, asegúrate de configurar la marca --maintenance-policy=TERMINATE.

Las siguientes marcas opcionales se muestran en el comando de muestra:

  • La marca --provisioning-model=SPOT, que configura tus VMs como VMs Spot. Si tu carga de trabajo es tolerante a errores y puede admitir una posible interrupciónde la VM, considera usar VMs Spot para reducir el costo de tus VMs y las GPUs adjuntas. Para obtener más información, consulta GPU en VMs Spot. En el caso de las VMs Spot, las marcas de las opciones de reinicio automático y mantenimiento del host están inhabilitadas.
  • La marca --accelerator para especificar una estación de trabajo virtual. Las estaciones de trabajo virtuales (vWS) de NVIDIA RTX solo son compatibles con las VM de G2.
  gcloud compute instances create VM_NAME \
      --machine-type=MACHINE_TYPE \
      --zone=ZONE \
      --boot-disk-size=DISK_SIZE \
      --image=IMAGE \
      --image-project=IMAGE_PROJECT \
      --maintenance-policy=TERMINATE \
      [--provisioning-model=SPOT] \
      [--accelerator=type=nvidia-l4-vws,count=VWS_ACCELERATOR_COUNT]
  
Reemplaza lo siguiente:
  • VM_NAME: el nombre de la VM nueva.
  • MACHINE_TYPE: el tipo de máquina que seleccionaste. Elige una de las siguientes opciones:
    • Un tipo de máquina A3
    • Un tipo de máquina A2
    • Un tipo de máquina G2. Los tipos de máquinas G2 también admiten memoria personalizada. La memoria debe ser un múltiplo de 1,024 MB y debe estar dentro del rango de memoria admitido. Por ejemplo, para crear una VM con 4 CPU virtuales y 19 GB de memoria, especifica --machine-type=g2-custom-4-19456.
  • ZONE: La zona para la VM. Esta zona debe ser compatible con el modelo de GPU seleccionado.
  • DISK_SIZE: El tamaño de tu disco de arranque en GB Especifica un tamaño de disco de arranque de al menos 40 GB.
  • IMAGE: una imagen del sistema operativo que admite GPU. Si deseas usar la imagen más reciente en una familia de imágenes, reemplaza la marca --image por la marca --image-family y configura su valor en una familia de imágenes que admita GPU. Por ejemplo: --image-family=rocky-linux-8-optimized-gcp.
    También puedes especificar una imagen personalizada o una Deep Learning VM Image.
  • IMAGE_PROJECT: el proyecto de imagen de Compute Engine al que pertenece la imagen de SO. Si usas una imagen personalizada o Deep Learning VM Image, especifica el proyecto al que pertenecen esas imágenes.
  • VWS_ACCELERATOR_COUNT: es la cantidad de GPU virtuales que necesitas.

REST

Realiza una solicitud POST al método instances.insert. Las VMs con GPU no pueden migrar en vivo; asegúrate de configurar el parámetro onHostMaintenance como TERMINATE.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances
{
"machineType": "projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE",
"disks":
[
  {
    "type": "PERSISTENT",
    "initializeParams":
    {
      "diskSizeGb": "DISK_SIZE",
      "sourceImage": "SOURCE_IMAGE_URI"
    },
    "boot": true
  }
],
"name": "VM_NAME",
"networkInterfaces":
[
  {
    "network": "projects/PROJECT_ID/global/networks/NETWORK"
  }
],
"scheduling":
{
  "onHostMaintenance": "terminate",
  ["automaticRestart": true]
},
}

Reemplaza lo siguiente:
  • VM_NAME: el nombre de la VM nueva.
  • PROJECT_ID: el ID de tu proyecto
  • ZONE: La zona para la VM. Esta zona debe ser compatible con el modelo de GPU seleccionado.
  • MACHINE_TYPE: el tipo de máquina que seleccionaste. Elige una de las siguientes opciones:
    • Un tipo de máquina A3
    • Un tipo de máquina A2
    • Un tipo de máquina G2. Los tipos de máquinas G2 también admiten memoria personalizada. La memoria debe ser un múltiplo de 1,024 MB y debe estar dentro del rango de memoria admitido. Por ejemplo, para crear una VM con 4 CPU virtuales y 19 GB de memoria, especifica --machine-type=g2-custom-4-19456.
    SOURCE_IMAGE_URI: el URI de la imagen o familia de imágenes específicas que deseas usar. Por ejemplo:
    • Imagen específica: "sourceImage": "projects/rocky-linux-cloud/global/images/rocky-linux-8-optimized-gcp-v20220719"
    • Familia de imágenes: "sourceImage": "projects/rocky-linux-cloud/global/images/family/rocky-linux-8-optimized-gcp"
    Cuando especificas una familia de imágenes, Compute Engine crea una VM a partir de la imagen de SO no obsoleta más reciente de esa familia. Para obtener más información sobre el balanceo de cargas, consulta Prácticas recomendadas para las familias de imágenes.
  • DISK_SIZE: El tamaño de tu disco de arranque en GB Especifica un tamaño de disco de arranque de al menos 40 GB.
  • NETWORK: la red de VPC que quieres usar para la VM Puedes especificar "default" para usar tu red predeterminada
Configuración adicional:
  • Si tu carga de trabajo es tolerante a errores y puede admitir una posible interrupciónde la VM, considera usar VMs Spot para reducir el costo de tus VMs y las GPUs adjuntas. Para obtener más información, consulta GPU en VMs Spot. Para especificar las VMs Spot, agrega la opción "provisioningModel": "SPOT" a tu solicitud. En el caso de las VMs Spot, las marcas de las opciones de reinicio automático y mantenimiento del host están inhabilitadas.
    "scheduling":
      {
        "provisioningModel": "SPOT"
      }
    
  • Para las VM G2, se admiten estaciones de trabajo virtuales (vWS) de NVIDIA RTX. Para especificar una estación de trabajo virtual, agrega la opción "guestAccelerators" a tu solicitud. Reemplaza VWS_ACCELERATOR_COUNT por la cantidad de GPU virtuales que necesitas.
    "guestAccelerators":
      [
        {
          "acceleratorCount": VWS_ACCELERATOR_COUNT,
          "acceleratorType": "projects/PROJECT_ID/zones/ZONEacceleratorTypes/nvidia-l4-vws"
        }
      ]
    

Limitaciones

VMs A3 Mega

  • No recibirás descuentos por uso continuo ni descuentos flexibles por compromiso de uso para las VMs que usan un tipo de máquina A3 Mega.
  • Solo puedes usar un tipo de máquina A3 Mega en ciertas regiones y zonas.
  • No puedes usar discos persistentes regionales en una VM que use el tipo de máquina A3 Mega.
  • El tipo de máquina A3 Mega solo está disponible en la plataforma Sapphire Rapids.
  • Si tu VM usa un tipo de máquina A3 Mega, no puedes cambiar el tipo de máquina. Si necesitas cambiar el tipo de máquina, debes crear una VM nueva.
  • No puedes cambiar el tipo de máquina de una VM a uno A3 Mega. Si necesitas una VM que use un tipo de máquina A3 Mega, debes crear una VM nueva.
  • Los tipos de máquinas Mega A3 no admiten usuarios únicos.
  • No puedes ejecutar sistemas operativos Windows en un tipo de máquina A3 Mega.
  • Solo puedes reservar tipos de máquinas Mega A3 a través de ciertas reservations.

VMs A3 High

  • No recibirás descuentos por uso continuo ni descuentos flexibles por compromiso de uso para las VMs que usan un tipo de máquina A3 High.
  • Solo puedes usar un tipo de máquina A3 alto en ciertas regiones y zonas.
  • No puedes usar discos persistentes regionales en una VM que use el tipo de máquina A3 alto.
  • El tipo de máquina A3 alto solo está disponible en la plataforma Sapphire Rapids.
  • Si tu VM usa un tipo de máquina A3 alto, no puedes cambiar el tipo de máquina. Si necesitas cambiar el tipo de máquina, debes crear una VM nueva.
  • No puedes cambiar el tipo de máquina de una VM a uno A3 alto. Si necesitas una VM que use un tipo de máquina A3 High, debes crear una VM nueva.
  • Los tipos de máquinas A3 High no admiten usuarios únicos.
  • No puedes ejecutar sistemas operativos Windows en un tipo de máquina A3 High.
  • Solo puedes reservar tipos de máquinas A3 de alta gama a través de ciertas reservations.
  • Para los tipos de máquinas a3-highgpu-1g, a3-highgpu-2g y a3-highgpu-4g, se aplican las siguientes limitaciones:
    • Para estos tipos de máquinas, debes usar VMs Spot o una función que use el programador de cargas de trabajo dinámico (DWS), como las solicitudes de cambio de tamaño en un MIG. Para obtener instrucciones detalladas sobre cualquiera de estas opciones, consulta lo siguiente:
    • No puedes usar Hyperdisk Balanced con estos tipos de máquinas.
    • No puedes crear reservas.
    Si intentas crear una VM con el aprovisionamiento estándar o intentas crear una reserva para estos tipos de máquinas, recibirás un mensaje de error.

VMs A3 Edge

  • No recibirás descuentos por uso continuo ni descuentos flexibles por compromiso de uso para las VMs que usan un tipo de máquina A3 Edge.
  • Solo puedes usar un tipo de máquina A3 Edge en ciertas regiones y zonas.
  • No puedes usar discos persistentes regionales en una VM que use el tipo de máquina A3 Edge.
  • El tipo de máquina A3 Edge solo está disponible en la plataforma Sapphire Rapids.
  • Si tu VM usa un tipo de máquina A3 Edge, no puedes cambiar el tipo de máquina. Si necesitas cambiar el tipo de máquina, debes crear una VM nueva.
  • No puedes cambiar el tipo de máquina de una VM a uno A3 Edge. Si necesitas una VM que use un tipo de máquina A3 Edge, debes crear una VM nueva.
  • Los tipos de máquinas A3 Edge no admiten usuarios únicos.
  • No puedes ejecutar sistemas operativos Windows en un tipo de máquina A3 Edge.
  • Solo puedes reservar tipos de máquinas A3 Edge a través de ciertas reservations.

VMs estándar A2

  • No recibirás descuentos por uso continuo ni descuentos por compromiso de uso flexibles para las VMs que usan tipos de máquinas A2 estándar.
  • Solo puedes usar los tipos de máquinas A2 estándar en ciertas regiones y zonas.
  • No puedes usar discos persistentes regionales en una VM que use tipos de máquinas A2 estándar.
  • Los tipos de máquinas A2 estándar solo están disponibles en la plataforma Cascade Lake.
  • Si tu VM usa un tipo de máquina estándar A2, solo puedes cambiar de un tipo de máquina estándar A2 a otro. No puedes cambiar a ningún otro tipo de máquina. Para obtener más información, consulta Modifica las VMs optimizadas para aceleradores.
  • No puedes usar el sistema operativo Windows con <codea2-megagpu-16g< código="" dir="ltr" translate="no"> los tipos de máquinas estándar A2. Cuando uses los sistemas operativos Windows, elige otro tipo de máquina A2 estándar.</codea2-megagpu-16g<>
  • No puedes realizar un formateo rápido de los SSD locales conectados en las VMs de Windows que usan los tipos de máquinas A2 estándar. Para formatear estos SSD locales, debes realizar un formateo completo mediante el uso de la utilidad diskpart y la especificación de format fs=ntfs label=tmpfs.
  • Los tipos de máquinas A2 estándar no admiten usuarios únicos.

VMs A2 ultra

  • No recibirás descuentos por uso continuo ni descuentos flexibles por compromiso de uso para las VMs que usan tipos de máquinas A2 ultra.
  • Solo puedes usar los tipos de máquinas A2 ultra en ciertas regiones y zonas.
  • No puedes usar discos persistentes regionales en una VM que use tipos de máquinas A2 ultra.
  • Los tipos de máquinas A2 ultra solo están disponibles en la plataforma Cascade Lake.
  • Si tu VM usa un tipo de máquina A2 ultra, no puedes cambiar el tipo de máquina. Si necesitas usar un tipo de máquina A2 ultra diferente o cualquier otro tipo de máquinas, debes crear una VM nueva.
  • No puedes cambiar ningún otro tipo de máquina a uno A2 ultra. Si necesitas crear una VM que use un tipo de máquina A2 ultra, debes crear una VM nueva.
  • No puedes realizar un formateo rápido de las SSD locales conectados en las VMs de Windows que usan los tipos de máquinas A2 ultra. Para formatear estos SSD locales, debes realizar un formateo completo mediante el uso de la utilidad diskpart y la especificación de format fs=ntfs label=tmpfs.

VMs G2

  • No recibirás descuentos por uso continuo ni descuentos flexibles por compromiso de uso para las VMs que usan tipos de máquinas G2.
  • Solo puedes usar los tipos de máquinas G2 en ciertas regiones y zonas.
  • No puedes usar discos persistentes regionales en una VM que use tipos de máquinas G2.
  • Los tipos de máquinas G2 solo están disponibles en la plataforma Cascade Lake.
  • Los discos persistentes estándar (pd-standard) no son compatibles con las VM que usan tipos de máquina estándar G2. Para conocer los tipos de discos compatibles, consulta Tipos de discos compatibles con G2.
  • No puedes crear GPU de instancias múltiples en los tipos de máquinas G2.
  • Si necesitas cambiar el tipo de máquina de una VM G2, revisa Modifica las VMs optimizadas para aceleradores.
  • No puedes usar imágenes de Deep Learning VM Image como discos de arranque para las VMs que usan tipos de máquinas G2.
  • El controlador predeterminado actual para Container-Optimized OS no es compatible con las GPU L4 que se ejecutan en los tipos de máquinas G2. Container-Optimized OS solo admite un conjunto selecto de controladores. Si deseas usar Container-Optimized OS en tipos de máquinas G2, revisa las siguientes notas:
    • Usa una versión de Container-Optimized OS que sea compatible con la versión mínima recomendada del controlador NVIDIA 525.60.13 o posterior. Para obtener más información, revisa las notas de la versión de Container-Optimized OS.
    • Cuando instalas el controlador, especifica la versión más reciente disponible que funcione para las GPU L4. Un ejemplo es sudo cos-extensions install gpu -- -version=525.60.13.
  • Debes usar Google Cloud CLI o REST para crear VMs de G2 en las siguientes situaciones:
    • Deseas especificar valores de memoria personalizados.
    • Deseas personalizar la cantidad de núcleos de CPU visibles.

Instalar controladores

Para que la VM use la GPU, debes instalar el controlador de GPU en tu VM.

Ejemplos

En estos ejemplos, la mayoría de las VMs se crean con Google Cloud CLI. Sin embargo, también puedes usar <a href="https://console.cloud.google.com/" target="console" track-type="inline link" referrerpolicy="no-referrer-when-downgrade">Google Cloud console</a> o REST para crear estas VMs.

En los siguientes ejemplos, se muestra cómo crear VM mediante las siguientes imágenes:

COS (A3 Edge/High)

Puedes crear VMs a3-edgegpu-8g o a3-highgpu-8g que tengan GPU H100 conectadas a través de imágenes optimizadas de contenedor (COS).

Para obtener instrucciones detalladas sobre cómo crear estas VMs a3-edgegpu-8g o a3-highgpu-8g que usan Container-Optimized OS, consulta Crea una VM A3 con GPUDirect-TCPX habilitado.

Imagen de SO pública (G2)

Puedes crear VMs que tengan GPU conectadas que usen una imagen pública disponible en Compute Engine o una imagen personalizada.

Para crear una VM con la imagen más reciente y no obsoleta de la familia de imágenes de Rocky Linux 8 optimizada para Google Cloud , que usa el tipo de máquina g2-standard-8 y tiene una estación de trabajo virtual NVIDIA RTX, completa los siguientes pasos:

  1. Crea la VM. En este ejemplo, también se especifican marcas opcionales, como el tipo y el tamaño del disco de arranque.

    gcloud compute instances create VM_NAME \
        --project=PROJECT_ID \
        --zone=ZONE \
        --machine-type=g2-standard-8  \
        --maintenance-policy=TERMINATE --restart-on-failure \
        --network-interface=nic-type=GVNIC \
        --accelerator=type=nvidia-l4-vws,count=1 \
        --image-family=rocky-linux-8-optimized-gcp \
        --image-project=rocky-linux-cloud \
        --boot-disk-size=200GB \
        --boot-disk-type=pd-ssd
    

    Reemplaza lo siguiente:

    • VM_NAME: El nombre de tu VM.
    • PROJECT_ID: El ID de tu proyecto
    • ZONE: La zona para la VM.
  2. Instala el controlador NVIDIA y CUDA. Para las GPU NVIDIA L4, se requiere la versión XX o superior de CUDA.

Imagen de DLVM (A2)

El uso de imágenes DLVM es la forma más fácil de comenzar porque estas imágenes ya tienen preinstalados los controladores NVIDIA y las bibliotecas CUDA.

Estas imágenes también proporcionan optimizaciones de rendimiento.

Las siguientes imágenes de DLVM son compatibles con NVIDIA A100:

  • common-cu110: Controlador NVIDIA y CUDA preinstalados
  • tf-ent-1-15-cu110: controlador NVIDIA, CUDA y TensorFlow Enterprise 1.15.3 preinstalados
  • tf2-ent-2-1-cu110: controlador NVIDIA, CUDA y TensorFlow Enterprise 2.1.1 preinstalados
  • tf2-ent-2-3-cu110: controlador NVIDIA, CUDA y TensorFlow Enterprise 2.3.1 preinstalados
  • pytorch-1-6-cu110: controlador de NVIDIA, CUDA, Pytorch 1.6

Para obtener más información sobre las imágenes de DLVM disponibles y los paquetes instalados en ellas, consulta la documentación de VM de aprendizaje profundo.

  1. Crea una VM mediante la imagen tf2-ent-2-3-cu110 y el tipo de máquina a2-highgpu-1g. En este ejemplo, se especifican marcas opcionales, como el tamaño del disco de arranque y el permiso.

    gcloud compute instances create VM_NAME \
       --project PROJECT_ID \
       --zone ZONE \
       --machine-type a2-highgpu-1g \
       --maintenance-policy TERMINATE \
       --image-family tf2-ent-2-3-cu110 \
       --image-project deeplearning-platform-release \
       --boot-disk-size 200GB \
       --metadata "install-nvidia-driver=True,proxy-mode=project_editors" \
       --scopes https://www.googleapis.com/auth/cloud-platform
    

    Reemplaza lo siguiente:

    • VM_NAME: El nombre de tu VM.
    • PROJECT_ID: El ID de tu proyecto
    • ZONE: La zona para la VM.
  2. Con el comando de ejemplo anterior, también se genera una instancia de notebooks administrados por el usuario de Vertex AI Workspace para la VM. Para acceder al notebook, en la consola de Google Cloud , ve a la página Vertex AI Workbench > Notebooks administrados por el usuario.

    Ir a la página Notebooks administrados por el usuario

GPU de instancias múltiples (solo VMs A3 y A2)

Una GPU de instancias múltiples particiona una sola GPU de NVIDIA H100 o A100 dentro de la misma VM en hasta siete instancias de GPU independientes. Se ejecutan de manera simultánea, cada uno con su propio procesador de memoria, caché y transmisión. Esta configuración permite que la GPU NVIDIA H100 o A100 entregue una calidad de servicio garantizada (QoS) hasta 7 veces mayor en comparación con los modelos de GPU anteriores.

Puedes crear hasta siete GPU de varias instancias. En las GPU A100 de 40 GB, cada GPU de instancias múltiples tiene asignados 5 GB de memoria. Con las GPU A100 de 80 GB y H100 de 80 GB, la memoria asignada se duplica a 10 GB cada una.

Para obtener más información sobre el uso de GPU de varias instancias, consulta Guía del usuario de GPU de varias instancias de NVIDIA.

Para crear GPU de varias instancias, completa los siguientes pasos:

  1. Crea una VM con optimización para aceleradores A3 o A2.

  2. Habilita los controladores de GPU de NVIDIA.

  3. Habilita las GPU de instancias múltiples.

    sudo nvidia-smi -mig 1
    
  4. Revisa las formas de GPU de varias instancias que están disponibles.

    sudo nvidia-smi mig --list-gpu-instance-profiles
    

    El resultado es similar al siguiente:

    +-----------------------------------------------------------------------------+
    | GPU instance profiles:                                                      |
    | GPU   Name             ID    Instances   Memory     P2P    SM    DEC   ENC  |
    |                              Free/Total   GiB              CE    JPEG  OFA  |
    |=============================================================================|
    |   0  MIG 1g.10gb       19     7/7        9.62       No     16     1     0   |
    |                                                             1     1     0   |
    +-----------------------------------------------------------------------------+
    |   0  MIG 1g.10gb+me    20     1/1        9.62       No     16     1     0   |
    |                                                             1     1     1   |
    +-----------------------------------------------------------------------------+
    |   0  MIG 1g.20gb       15     4/4        19.50      No     26     1     0   |
    |                                                             1     1     0   |
    +-----------------------------------------------------------------------------+
    |   0  MIG 2g.20gb       14     3/3        19.50      No     32     2     0   |
    |                                                             2     2     0   |
    +-----------------------------------------------------------------------------+
    |   0  MIG 3g.40gb        9     2/2        39.25      No     60     3     0   |
    |                                                             3     3     0   |
    +-----------------------------------------------------------------------------+
    .......
    
  5. Crea la GPU de varias instancias (SIG) y las instancias de procesamiento asociadas (CI) que desees. Puedes crear estas instancias si especificas el nombre completo o abreviado del nombre del perfil, el ID del perfil, o una combinación de ambos. Para obtener más información, consulta Crea instancias de GPU.

    En el siguiente ejemplo, se crean dos instancias de GPU MIG 3g.20gb usando el ID de perfil (9).

    También se especifica la marca -C, que crea las instancias de procesamiento asociadas con el perfil requerido.

    sudo nvidia-smi mig -cgi 9,9 -C
    
  6. Verifica que se creen ambas GPU de varias instancias:

    sudo nvidia-smi mig -lgi
    
  7. Comprueba que se hayan creado las GI y las IC correspondientes.

    sudo nvidia-smi
    

    El resultado es similar a este:

    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 525.125.06   Driver Version: 525.125.06   CUDA Version: 12.0     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  NVIDIA H100 80G...  Off  | 00000000:04:00.0 Off |                   On |
    | N/A   33C    P0    70W / 700W |     39MiB / 81559MiB |     N/A      Default |
    |                               |                      |              Enabled |
    +-------------------------------+----------------------+----------------------+
    |   1  NVIDIA H100 80G...  Off  | 00000000:05:00.0 Off |                   On |
    | N/A   32C    P0    69W / 700W |     39MiB / 81559MiB |     N/A      Default |
    |                               |                      |              Enabled |
    +-------------------------------+----------------------+----------------------+
    ......
    
    +-----------------------------------------------------------------------------+
    | MIG devices:                                                                |
    +------------------+----------------------+-----------+-----------------------+
    | GPU  GI  CI  MIG |         Memory-Usage |        Vol|         Shared        |
    |      ID  ID  Dev |           BAR1-Usage | SM     Unc| CE  ENC  DEC  OFA  JPG|
    |                  |                      |        ECC|                       |
    |==================+======================+===========+=======================|
    |  0    1   0   0  |     19MiB / 40192MiB | 60      0 |  3   0    3    0    3 |
    |                  |      0MiB / 65535MiB |           |                       |
    +------------------+----------------------+-----------+-----------------------+
    |  0    2   0   1  |     19MiB / 40192MiB | 60      0 |  3   0    3    0    3 |
    |                  |      0MiB / 65535MiB |           |                       |
    +------------------+----------------------+-----------+-----------------------+
    ......
    
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+
    

Próximos pasos