En este documento se describen las funciones y las limitaciones de las instancias de máquina virtual (VM) con GPU que se ejecutan en Compute Engine.
Para acelerar cargas de trabajo específicas en Compute Engine, puedes desplegar una instancia optimizada para aceleradores que tenga GPUs conectadas o conectar GPUs a una instancia de uso general N1. Compute Engine proporciona GPUs para tus instancias en modo de transferencia directa. El modo de transferencia permite que tus instancias controlen directamente las GPUs y su memoria.
También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (ML). Esta opción se recomienda para crear una infraestructura densamente asignada y optimizada para el rendimiento que tenga integraciones para Google Kubernetes Engine (GKE) y los programadores de Slurm.
Tipos de máquinas admitidos
Las familias de máquinas optimizadas para aceleradores y de uso general N1 admiten GPUs. En el caso de las instancias que usan tipos de máquina optimizados para aceleradores, Compute Engine adjunta automáticamente las GPUs cuando creas la instancia. En el caso de las instancias que usan tipos de máquina N1, puedes asociar GPUs a una instancia durante o después de crearla. Las GPUs no son compatibles con otros tipos de máquina.
Tipos de máquinas optimizadas para aceleradores
Cada tipo de máquina optimizada para aceleradores tiene un modelo específico de GPU NVIDIA conectada. Si tienes cargas de trabajo que utilizan un gran número de gráficos, como la visualización en 3D, también puedes crear estaciones de trabajo virtuales que usen estaciones de trabajo virtuales (vWS) NVIDIA RTX. La estación de trabajo virtual NVIDIA RTX está disponible para algunos modelos de GPU.
Tipo de máquina | Modelo de GPU | Modelo de estación de trabajo virtual (vWS) NVIDIA RTX |
---|---|---|
A4X | Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200 ).
Cada Superchip contiene cuatro GPUs NVIDIA B200 Blackwell. |
|
A4 | GPUs NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPUs NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega | GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High, A3 Edge | GPUs NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb ) |
|
A2 Standard | GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb ) |
|
G4 (Vista previa) | NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000 ) |
|
G2 | GPUs NVIDIA L4 (nvidia-l4 ) |
GPUs de estaciones de trabajo virtuales con NVIDIA L4 (nvidia-l4-vws ) |
Para obtener más información, consulta la página Familia de máquinas optimizadas para aceleradores.
Tipos de máquinas de uso general N1
En la mayoría de los tipos de máquinas N1, excepto en los de núcleo compartido (f1-micro
y g1-small
),
puedes adjuntar los siguientes modelos de GPU:
GPUs NVIDIA:
- NVIDIA T4:
nvidia-tesla-t4
- NVIDIA P4:
nvidia-tesla-p4
- NVIDIA P100:
nvidia-tesla-p100
- NVIDIA V100:
nvidia-tesla-v100
Estación de trabajo virtual (vWS) NVIDIA RTX (antes NVIDIA GRID):
- Estación de trabajo virtual con NVIDIA T4:
nvidia-tesla-t4-vws
- Estación de trabajo virtual con NVIDIA P4:
nvidia-tesla-p4-vws
Estación de trabajo virtual con NVIDIA P100:
nvidia-tesla-p100-vws
En el caso de estas estaciones de trabajo virtuales, se añade automáticamente una licencia de estación de trabajo virtual (vWS) NVIDIA RTX a tu instancia.
En la familia de uso general N1, puede usar tipos de máquinas predefinidos o personalizados.
GPUs en máquinas virtuales de acceso puntual
Puedes añadir GPUs a tus máquinas virtuales Spot a precios Spot más bajos para las GPUs. Las GPUs vinculadas a las VMs de acceso puntual funcionan como las GPUs normales, pero solo persisten durante la vida útil de la VM. Las VMs de Spot con GPUs siguen el mismo proceso de desalojo que todas las VMs de Spot.
Te recomendamos que solicites una cuota Preemptible GPU
para usar GPUs en máquinas virtuales de Spot. Para obtener más información, consulta Cuotas de VMs de acceso puntual.
Durante los eventos de mantenimiento, las VMs spot con GPUs se desalojan de forma predeterminada y no se pueden reiniciar automáticamente. Si quieres volver a crear tus VMs después de que se hayan interrumpido temporalmente, usa un grupo de instancias gestionado. Los grupos de instancias gestionados vuelven a crear tus instancias de VM si los recursos de vCPU, memoria y GPU están disponibles.
Si quieres recibir una advertencia antes de que se interrumpan tus VMs o quieres configurarlas para que se reinicien automáticamente después de un evento de mantenimiento, usa VMs estándar con una GPU. En el caso de las máquinas virtuales estándar con GPUs, Compute Engine avisa con una hora de antelación antes de la expropiación.
Compute Engine no te cobra por las GPUs si sus VMs se interrumpen durante el primer minuto después de que empiecen a ejecutarse.
Para saber cómo crear máquinas virtuales de acceso puntual con GPUs vinculadas, consulta los artículos Crear una máquina virtual con GPUs vinculadas y Crear máquinas virtuales de acceso puntual. Por ejemplo, consulta Crear una instancia A3 Ultra o A4 con máquinas virtuales de Spot.
GPUs en instancias con tiempos de ejecución predefinidos
Las instancias que usan el modelo de aprovisionamiento estándar normalmente no pueden usar cuotas de asignación de instancias no garantizadas. Las cuotas de recursos interrumpibles son para cargas de trabajo temporales y suelen estar más disponibles. Si tu proyecto no tiene cuota interrumpible y nunca la has solicitado, todas las instancias de tu proyecto consumen cuotas de asignación estándar.
Si solicitas una cuota de asignación de recursos preemptiva, las instancias que usen el modelo de aprovisionamiento estándar deben cumplir todos los criterios siguientes para consumir la cuota de asignación de recursos preemptiva:
- Las instancias tienen GPUs conectadas.
- Las instancias se configuran para que se eliminen automáticamente después de un tiempo de ejecución predefinido a través del campo
maxRunDuration
oterminationTime
. Para obtener más información, consulta lo siguiente: - La instancia no tiene permiso para consumir reservas. Para obtener más información, consulta el artículo Impedir que las instancias de proceso consuman reservas.
Cuando consumes asignación interrumpible para cargas de trabajo de GPU con límite de tiempo, puedes beneficiarte tanto del tiempo de ejecución ininterrumpido como de la alta disponibilidad de la cuota de asignación interrumpible. Para obtener más información, consulta las cuotas de instancias preemptivas.
GPUs y Confidential VMs
Puedes usar una GPU con una instancia de máquina virtual confidencial que use Intel TDX en la serie de máquinas A3. Para obtener más información, consulta las configuraciones admitidas de las VMs confidenciales. Para saber cómo crear una instancia de VM confidencial con GPUs, consulta el artículo Crear una instancia de VM confidencial con GPU.
GPUs y almacenamiento en bloques
Cuando creas una instancia con un tipo de máquina con GPU, puedes añadir almacenamiento en bloque persistente o temporal a la instancia. Para almacenar datos no transitorios, usa almacenamiento en bloques persistente, como Hyperdisk o Persistent Disk, ya que estos discos son independientes del ciclo de vida de la instancia. Los datos del almacenamiento persistente se pueden conservar incluso después de eliminar la instancia.
Para el almacenamiento temporal o las cachés, usa el almacenamiento en bloques temporal añadiendo discos SSD locales al crear la instancia.
Almacenamiento en bloques persistente con volúmenes de Persistent Disk e Hyperdisk
Puedes adjuntar volúmenes de Persistent Disk y seleccionar volúmenes de Hyperdisk a instancias con GPU.
Para las cargas de trabajo de aprendizaje automático (ML) y de servicio, usa volúmenes de Hyperdisk ML, que ofrecen un alto rendimiento y tiempos de carga de datos más cortos. Hyperdisk ML es una opción más rentable para las cargas de trabajo de aprendizaje automático porque ofrece tiempos de inactividad de la GPU más bajos.
Los volúmenes de Hyperdisk ML ofrecen compatibilidad con la conexión múltiple de solo lectura, por lo que puede conectar el mismo disco a varias instancias, lo que permite que cada instancia acceda a los mismos datos.
Para obtener más información sobre los tipos de disco admitidos en las series de máquinas que admiten GPUs, consulta las páginas de las series de máquinas N1 y optimizadas para aceleradores.
Discos SSD locales
Los discos SSD locales proporcionan almacenamiento temporal rápido para el almacenamiento en caché, el procesamiento de datos u otros datos transitorios. Los discos SSD locales proporcionan almacenamiento rápido porque están montados físicamente en el servidor en el que se aloja la instancia. Los discos SSD locales proporcionan almacenamiento temporal, ya que la instancia pierde los datos si se reinicia.
Evita almacenar datos con requisitos de persistencia elevados en discos SSD locales. Para almacenar datos no transitorios, usa el almacenamiento persistente.
Si detienes manualmente una instancia con una GPU, puedes conservar los datos del SSD local, con ciertas restricciones. Consulta más información en la documentación de SSD local.
Para obtener información sobre la compatibilidad regional de los SSD locales con los tipos de GPU, consulta Disponibilidad de SSD local por regiones y zonas de GPU.
GPUs y mantenimiento del host
Compute Engine siempre detiene las instancias con GPUs conectadas cuando realiza eventos de mantenimiento en el servidor host. Si la instancia tiene discos SSD locales conectados, perderá los datos de los SSD locales después de detenerse.
Para obtener información sobre cómo gestionar eventos de mantenimiento, consulta Gestionar eventos de mantenimiento de host de GPU.
Precios de GPUs
En el caso de las instancias que tienen GPUs conectadas, los costes se aplican de la siguiente manera:
Si solicitas a Compute Engine que aprovisione GPUs mediante el modelo de aprovisionamiento de GPUs spot, de inicio flexible o vinculadas a reservas, obtendrás un precio con descuento, en función del tipo de GPU.
La mayoría de las instancias que tienen GPUs conectadas reciben descuentos por uso continuado (SUDs), al igual que las vCPUs. Cuando seleccionas una GPU para una estación de trabajo virtual, Compute Engine añade automáticamente una licencia de estación de trabajo virtual NVIDIA RTX a tu instancia.
Para consultar los precios por hora y por mes de las GPUs, visita la página de precios de las GPUs.
Reservar GPUs con descuentos por compromiso de uso
Para reservar recursos de GPU en una zona concreta, consulta la sección Elegir un tipo de reserva.
Para recibir descuentos por compromiso de uso para GPUs en una zona concreta, debes comprar compromisos basados en recursos para las GPUs y adjuntar reservas que especifiquen GPUs coincidentes a tus compromisos. Para obtener más información, consulta el artículo sobre cómo asociar reservas a compromisos basados en recursos.
Restricciones y limitaciones de las GPUs
En el caso de las instancias con GPUs conectadas, se aplican las siguientes restricciones y limitaciones:
Solo los tipos de máquinas optimizadas para aceleradores (A4X, A4, A3, A2 y G2) y los de uso general N1 admiten GPUs.
Para proteger los sistemas y los usuarios de Compute Engine, los proyectos nuevos tienen una cuota de GPU global que limita el número total de GPUs que puedes crear en cualquier zona admitida. Cuando solicites una cuota de GPUs, tienes que pedir una cuota para los modelos de GPU que vayas a crear en cada región y, además, una cuota global para el total de GPUs (de todos los tipos y en todas las zonas).
Las instancias con una o varias GPUs tienen un número máximo de vCPUs por cada GPU que añadas a la instancia. Para ver los intervalos de vCPU y memoria disponibles para las distintas configuraciones de GPU, consulta la lista de GPUs.
Las GPUs requieren controladores de dispositivo para funcionar correctamente. Las GPUs de NVIDIA que se ejecutan en Compute Engine deben usar una versión mínima del controlador. Para obtener más información sobre las versiones de los controladores, consulta Versiones de controladores de NVIDIA necesarias.
El SLA de Compute Engine solo cubre las instancias con un modelo de GPU adjunto si ese modelo de GPU adjunto está disponible de forma general.
En las regiones que tienen varias zonas, el SLA de Compute Engine solo cubre la instancia si el modelo de GPU está disponible en más de una zona de esa región. Para ver los modelos de GPU por región, consulta Regiones y zonas de GPU.
Compute Engine admite un usuario simultáneo por GPU.
Consulta también las limitaciones de cada tipo de máquina con GPUs conectadas.
Siguientes pasos
- Consulta cómo crear instancias con GPUs vinculadas.
- Consulta cómo añadir o quitar GPUs.
- Consulta cómo crear una instancia de máquina virtual confidencial con una GPU vinculada.