Tipos de máquinas GPU


Puedes usar GPU en Compute Engine para acelerar cargas de trabajo específicas en tus VM, como el aprendizaje automático (ML) y el procesamiento de datos. Para usar GPU, puede implementar una máquina virtual optimizada para acelerador que tenga GPU conectadas o conectar GPU a una máquina virtual N1 de uso general.

Compute Engine proporciona GPU para sus máquinas virtuales en modo de transferencia para que sus máquinas virtuales tengan control directo sobre las GPU y su memoria asociada.

Para obtener más información sobre las GPU en Compute Engine, consulta Acerca de las GPU .

Si tiene cargas de trabajo con uso intensivo de gráficos, como visualización 3D, renderizado 3D o aplicaciones virtuales, puede utilizar las estaciones de trabajo virtuales NVIDIA RTX (anteriormente conocidas como NVIDIA GRID).

Este documento proporciona una descripción general de las diferentes máquinas virtuales con GPU que están disponibles en Compute Engine.

Para ver las regiones y zonas disponibles para GPU en Compute Engine, consulta Regiones y zonas de GPU disponibles .

GPU para cargas de trabajo informáticas

Para cargas de trabajo informáticas, las GPU son compatibles con los siguientes tipos de máquinas:

  • Máquinas virtuales A4 : estas máquinas virtuales tienen GPU NVIDIA B200 conectadas automáticamente.
  • Máquinas virtuales A3 : estas máquinas virtuales tienen GPU NVIDIA H100 de 80 GB o NVIDIA H200 de 141 GB conectadas automáticamente.
  • Máquinas virtuales A2 : estas máquinas virtuales tienen GPU NVIDIA A100 de 80 GB o NVIDIA A100 de 40 GB conectadas automáticamente.
  • Máquinas virtuales G2 : estas máquinas virtuales tienen GPU NVIDIA L4 conectadas automáticamente.
  • Máquinas virtuales N1 : para estas máquinas virtuales, puede conectar los siguientes modelos de GPU: NVIDIA T4, NVIDIA V100, NVIDIA P100 o NVIDIA P4.

Serie de máquinas A4

Para utilizar las GPU NVIDIA B200, debe utilizar un tipo de máquina optimizada para acelerador A4 . Cada tipo de máquina A4 tiene un recuento de GPU, un recuento de vCPU y un tamaño de memoria fijos.

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3e)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a4-highgpu-8g 8 1.440 224 3.968 12.000 10 3.600

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Serie de máquinas A3

Para utilizar las GPU NVIDIA H100 de 80 GB o NVIDIA H200 de 141 GB, debe utilizar un tipo de máquina optimizada para acelerador A3 . Cada tipo de máquina A3 tiene un recuento de GPU, un recuento de vCPU y un tamaño de memoria fijos.

Tipo de máquina A3 Ultra

Para utilizar las GPU NVIDIA H200 de 141 GB, debe utilizar el tipo de máquina A3 Ultra. Este tipo de máquina tiene GPU H200 de 141 GB ( nvidia-h200-141gb ) y proporciona el mayor rendimiento de red. Son ideales para la formación y el servicio de modelos básicos.

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3e)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-ultragpu-8g 8 1128 224 2.952 12.000 10 3.600

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Tipos de máquinas A3 Mega, High y Edge

Para utilizar NVIDIA H100 80GB tienes las siguientes opciones:

  • A3 Mega : estos tipos de máquinas tienen GPU H100 de 80 GB ( nvidia-h100-mega-80gb ) y son ideales para capacitación a gran escala y cargas de trabajo.
  • A3 High : estos tipos de máquinas tienen GPU H100 de 80 GB ( nvidia-h100-80gb ) y son ideales tanto para tareas de capacitación como de servicio.
  • A3 Edge : estos tipos de máquinas tienen GPU H100 de 80 GB ( nvidia-h100-80gb ), están diseñadas específicamente para brindar servicio y están disponibles en un conjunto limitado de regiones .

A3 Mega

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-megagpu-8g 8 640 208 1.872 6.000 9 1.800

A3 alto

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-highgpu-1g 1 80 26 234 750 1 25
a3-highgpu-2g 2 160 52 468 1.500 1 50
a3-highgpu-4g 4 320 104 936 3.000 1 100
a3-highgpu-8g 8 640 208 1.872 6.000 5 1.000

Borde A3

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-edgegpu-8g 8 640 208 1.872 6.000 5

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Serie de máquinas A2

Para utilizar las GPU NVIDIA A100 enGoogle Cloud, debe utilizar un tipo de máquina optimizada para acelerador A2 . Cada tipo de máquina A2 tiene un recuento de GPU, un recuento de vCPU y un tamaño de memoria fijos.

La serie de máquinas A2 está disponible en dos tipos:

  • A2 Ultra : estos tipos de máquinas tienen GPU A100 de 80 GB ( nvidia-a100-80gb ) y discos SSD locales adjuntos.
  • Estándar A2 : estos tipos de máquinas tienen GPU A100 de 40 GB ( nvidia-tesla-a100 ) adjuntas.

A2 Ultra

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Ancho de banda máximo de red (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1.500 50
a2-ultragpu-8g 8 640 96 1.360 3.000 100

Estándar A2

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Ancho de banda máximo de red (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1.360 100

* La memoria GPU es la memoria disponible en un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.

Serie de máquinas G2

Para utilizar GPU NVIDIA L4 ( nvidia-l4 o nvidia-l4-vws ), debe utilizar un tipo de máquina optimizada para acelerador G2 .

Cada tipo de máquina G2 tiene una cantidad fija de GPU y vCPU NVIDIA L4 conectadas. Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puede asignar a su VM para cada tipo de máquina. Puede especificar su memoria personalizada durante la creación de VM.

Tipo de máquina recuento de GPU Memoria GPU * (GB GDDR6) Recuento de vCPU Memoria de máquina virtual predeterminada (GB) Rango de memoria de VM personalizado (GB) Máximo SSD local admitido (GiB) Ancho de banda máximo de red (Gbps)
g2-standard-4 1 24 4 16 16 a 32 375 10
g2-standard-8 1 24 8 32 32 a 54 375 16
g2-standard-12 1 24 12 48 48 a 54 375 16
g2-standard-16 1 24 16 64 54 a 64 375 32
g2-standard-24 2 48 24 96 96 a 108 750 32
g2-standard-32 1 24 32 128 96 a 128 375 32
g2-standard-48 4 96 48 192 192 a 216 1.500 50
g2-standard-96 8 192 96 384 384 a 432 3.000 100

* La memoria GPU es la memoria disponible en un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.

Serie de máquinas N1

Puede conectar los siguientes modelos de GPU a un tipo de máquina N1, con excepción del tipo de máquina de núcleo compartido N1.

Las máquinas virtuales N1 con menor cantidad de GPU están limitadas a una cantidad máxima de vCPU. En general, una mayor cantidad de GPU le permite crear instancias de VM con una mayor cantidad de vCPU y memoria.

GPU N1+T4

Puede conectar GPU NVIDIA T4 a máquinas virtuales de uso general N1 con las siguientes configuraciones de máquina virtual.

Tipo de acelerador recuento de GPU Memoria GPU * (GB GDDR6) recuento de CPU virtuales Memoria de máquina virtual (GB) Compatible con SSD locales
nvidia-tesla-t4 o
nvidia-tesla-t4-vws
1 16 1 a 48 1 a 312
2 32 1 a 48 1 a 312
4 64 1 a 96 1 a 624

* La memoria GPU es la memoria disponible en un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.

GPU N1+P4

Puede conectar GPU NVIDIA P4 a máquinas virtuales de uso general N1 con las siguientes configuraciones de máquina virtual.

Tipo de acelerador recuento de GPU Memoria GPU * (GB GDDR5) recuento de CPU virtuales Memoria de máquina virtual (GB) Compatible con SSD local
nvidia-tesla-p4 o
nvidia-tesla-p4-vws
1 8 1 al 24 1 a 156
2 16 1 a 48 1 a 312
4 32 1 a 96 1 a 624

* La memoria GPU es la memoria disponible en un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.

Para las máquinas virtuales con GPU NVIDIA P4 conectadas, los discos SSD locales solo se admiten en las zonas us-central1-c y northamerica-northeast1-b .

GPU N1+V100

Puede conectar GPU NVIDIA V100 a máquinas virtuales de uso general N1 con las siguientes configuraciones de máquina virtual.

Tipo de acelerador recuento de GPU Memoria GPU * (GB HBM2) recuento de CPU virtuales Memoria de máquina virtual (GB) Compatible con SSD local
nvidia-tesla-v100 1 16 1 a 12 1 a 78
2 32 1 al 24 1 a 156
4 64 1 a 48 1 a 312
8 128 1 a 96 1 a 624

* La memoria GPU es la memoria disponible en un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Para máquinas virtuales con GPU NVIDIA V100 conectadas, los discos SSD locales no son compatibles con us-east1-c .

GPU N1+P100

Puede conectar GPU NVIDIA P100 a máquinas virtuales N1 de uso general con las siguientes configuraciones de máquina virtual.

Para algunas GPU NVIDIA P100, la CPU y la memoria máximas disponibles para algunas configuraciones dependen de la zona en la que se ejecuta el recurso de la GPU.

Tipo de acelerador recuento de GPU Memoria GPU * (GB HBM2) recuento de CPU virtuales Memoria de máquina virtual (GB) Compatible con SSD locales
nvidia-tesla-p100 o
nvidia-tesla-p100-vws
1 16 1 a 16 1 a 104
2 32 1 a 32 1 a 208
4 64

1 a 64
(nosotros-este1-c, europa-oeste1-d, europa-oeste1-b)

1 a 96
(todas las zonas P100)

1 a 208
(nosotros-este1-c, europa-oeste1-d, europa-oeste1-b)

1 a 624
(todas las zonas P100)

* La memoria GPU es la memoria disponible en un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.

Estaciones de trabajo virtuales NVIDIA RTX (vWS) para cargas de trabajo de gráficos

Si tiene cargas de trabajo con uso intensivo de gráficos, como visualización 3D, puede crear estaciones de trabajo virtuales que utilicen estaciones de trabajo virtuales NVIDIA RTX (vWS) (anteriormente conocidas como NVIDIA GRID). Cuando crea una estación de trabajo virtual, se agrega automáticamente una licencia de estación de trabajo virtual NVIDIA RTX (vWS) a su VM.

Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulte la página de precios de GPU .

Para cargas de trabajo de gráficos, hay disponibles modelos de estaciones de trabajo virtuales (vWS) NVIDIA RTX:

  • Serie de máquinas G2: para los tipos de máquinas G2 puede habilitar las estaciones de trabajo virtuales NVIDIA L4 (vWS): nvidia-l4-vws

  • Serie de máquinas N1: para los tipos de máquinas N1 , puede habilitar las siguientes estaciones de trabajo virtuales:

    • Estaciones de trabajo virtuales NVIDIA T4: nvidia-tesla-t4-vws
    • Estaciones de trabajo virtuales NVIDIA P100: nvidia-tesla-p100-vws
    • Estaciones de trabajo virtuales NVIDIA P4: nvidia-tesla-p4-vws

Cuadro comparativo general

La siguiente tabla describe el tamaño de la memoria de la GPU, la disponibilidad de funciones y los tipos de carga de trabajo ideales de los diferentes modelos de GPU que están disponibles en Compute Engine.

modelo de GPU Memoria GPU interconectar Compatibilidad con la estación de trabajo virtual NVIDIA RTX (vWS) Mejor usado para
B200 180 GB HBM3e a 8 TB/s NVLink de malla completa a 1800 GBps Capacitación distribuida a gran escala e inferencia de LLM, recomendadores, HPC
H200 141GB 141 GB HBM3e a 4,8 TB/s NVLink de malla completa a 900 GBps Modelos grandes con tablas de datos masivas para ML Training, Inference, HPC, BERT, DLRM
H100 80GB 80 GB HBM3 a 3,35 TB/s NVLink de malla completa a 900 GBps Modelos grandes con tablas de datos masivas para ML Training, Inference, HPC, BERT, DLRM
A100 80GB 80 GB HBM2e a 1,9 TB/s NVLink de malla completa a 600 GBps Modelos grandes con tablas de datos masivas para ML Training, Inference, HPC, BERT, DLRM
A100 40GB 40 GB HBM2 a 1,6 TB/s NVLink de malla completa a 600 GBps Entrenamiento de ML, inferencia, HPC
L4 24 GB GDDR6 a 300 GB/s N / A Inferencia de aprendizaje automático, capacitación, estaciones de trabajo de visualización remota, transcodificación de video, HPC
T4 16 GB GDDR6 a 320 GB/s N / A Inferencia de aprendizaje automático, capacitación, estaciones de trabajo de visualización remota, transcodificación de video
V100 16 GB HBM2 a 900 GB/s Anillo NVLink a 300 GBps Entrenamiento de ML, inferencia, HPC
P4 8 GB GDDR5 a 192 GB/s N / A Estaciones de trabajo de visualización remota, inferencia de aprendizaje automático y transcodificación de vídeo
P100 16 GB HBM2 a 732 GB/s N / A Capacitación en ML, inferencia, HPC, estaciones de trabajo de visualización remota

Para comparar los precios de GPU para los diferentes modelos y regiones de GPU que están disponibles en Compute Engine, consulta Precios de GPU .

Cuadro comparativo de rendimiento

La siguiente tabla describe las especificaciones de rendimiento de los diferentes modelos de GPU que están disponibles en Compute Engine.

Rendimiento informático

modelo de GPU FP64 FP32 FP16 INT8
B200 40 TFLOPS 80 TFLOPS
H200 141GB 34 TFLOPS 67 TFLOPS
H100 80GB 34 TFLOPS 67 TFLOPS
A100 80GB 9,7 TFLOPS 19,5 TFLOPS
A100 40GB 9,7 TFLOPS 19,5 TFLOPS
L4 0,5 TFLOPS * 30,3 TFLOPS
T4 0,25 TFLOPS * 8.1 TFLOPS
V100 7,8 TFLOPS 15,7 TFLOPS
P4 0,2 TFLOPS * 5,5 TFLOPS 22 SUPERIORES
P100 4,7 TFLOPS 9.3 TFLOPS 18,7 TFLOPS

* Para permitir que el código FP64 funcione correctamente, se incluye una pequeña cantidad de unidades de hardware FP64 en la arquitectura de GPU T4, L4 y P4.
TeraOperaciones por segundo.

Rendimiento del núcleo tensorial

modelo de GPU FP64 TF32 FP16/FP32 de precisión mixta INT8 INT4 8PM
B200 40 TFLOPS 2200 TFLOPS 4500 TFLOPS *, † 9000 TFLOPS 9000 TFLOPS
H200 141GB 67 TFLOPS 989 TFLOPS 1.979 TFLOPS *, † 3,958 SUPERIORES 3958 TFLOPS
H100 80GB 67 TFLOPS 989 TFLOPS 1.979 TFLOPS *, † 3,958 SUPERIORES 3958 TFLOPS
A100 80GB 19,5 TFLOPS 156 TFLOPS 312 TFLOPS * 624 TOPS 1248 TOPS
A100 40GB 19,5 TFLOPS 156 TFLOPS 312 TFLOPS * 624 TOPS 1248 TOPS
L4 120 TFLOPS 242 TFLOPS *, † 485 SUPERIORES 485 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

* Para el entrenamiento de precisión mixta, las GPU NVIDIA B200, H200, H100, A100 y L4 también admiten el tipo de datos bfloat16 .
Para las GPU NVIDIA B200, H200, H100 y L4, se admite la escasez estructural, que puede utilizar para duplicar el valor del rendimiento. Los valores mostrados son escasos. Las especificaciones son la mitad más bajas sin escasez.

¿Qué sigue?