Redes y máquinas de GPU


Un ancho de banda de red más alto puede mejorar el rendimiento de tus instancias de GPU para admitir cargas de trabajo distribuidas que se ejecutan en Compute Engine.

El ancho de banda de red máximo disponible para las instancias con GPUs conectadas en Compute Engine es el siguiente:

  • Para las instancias optimizadas para aceleradores A4 y A3, puedes obtener un ancho de banda de red máximo de hasta 3,600 Gbps, según el tipo de máquina.
  • Para las instancias optimizadas para aceleradores A2 y G2, puedes obtener un ancho de banda de red máximo de hasta 100 Gbps, según el tipo de máquina.
  • Las instancias de uso general N1 que tienen adjuntas las GPU P100 y P4 tienen disponible un ancho de banda de red máximo de 32 Gbps. Esto es similar a la velocidad máxima disponible para las instancias de N1 que no tienen GPU adjuntas. Para obtener más información sobre el ancho de banda de la red, consulta la tasa máxima de datos de salida.
  • Para las instancias de uso general N1 que tienen adjuntas las GPU T4 y V100, puedes obtener un ancho de banda de red máximo de hasta 100 Gbps, según la combinación de la cantidad de GPU y CPU virtuales.

Revisa el ancho de banda de la red y la disposición de la NIC

Usa la siguiente sección para revisar la disposición de red y la velocidad de ancho de banda para cada tipo de máquina de GPU.

Tipos de máquinas A4 y A3 Ultra

Los tipos de máquinas A4 tienen GPUs NVIDIA B200 conectadas, y los tipos de máquinas A3 Ultra tienen GPUs NVIDIA H200 de 141 GB conectadas.

Estos tipos de máquinas proporcionan ocho tarjetas de interfaz de red (NIC) NVIDIA ConnectX-7 (CX7) y dos NIC virtuales de Google (gVNIC). Las ocho NIC CX7 proporcionan un ancho de banda de red total de 3,200 Gbps. Estas NIC solo se usan para la comunicación de GPU a GPU de gran ancho de banda y no se pueden usar para otras necesidades de red, como el acceso a Internet público. Como se describe en el siguiente diagrama, cada NIC CX7 está alineada con una GPU para optimizar el acceso a la memoria no uniforme (NUMA). Las ocho GPU pueden comunicarse rápidamente entre sí mediante el puente NVLink de todos a todos que las conecta. Las otras dos tarjetas de interfaz de red gVNIC son NIC inteligentes que proporcionan 400 Gbps adicionales de ancho de banda de red para los requisitos de redes de uso general. En conjunto, las tarjetas de interfaz de red proporcionan un ancho de banda máximo de red de 3,600 Gbps para estas máquinas.

Arquitectura de red para A4 y A3 Ultra.
Figura 1. Arquitectura de red para A4 y A3 Ultra

Para usar estas múltiples NIC, debes crear 3 redes de nube privada virtual de la siguiente manera:

  • 2 redes de VPC: Cada NIC de gVNIC se debe adjuntar a una red de VPC diferente
  • 1 red de VPC para RDMA : Las ocho NIC CX7 comparten la misma red de VPC.

Para configurar estas redes, consulta Crea redes de VPC en la documentación de Hypercomputer de IA.

VMs A4

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3e)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)
a4-highgpu-8g 8 1,440 224 3,968 12,000 10 3,600

*La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.

VMs A3 Ultra

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3e)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)
a3-ultragpu-8g 8 1128 224 2,952 12,000 10 3,600

*La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.

Tipos de máquinas A3 Mega, High y Edge

Estos tipos de máquinas tienen GPUs H100 de 80 GB conectadas. Cada uno de estos tipos de máquinas tiene un recuento fijo de GPU, de CPU virtuales y de tamaño de memoria.

  • VMs A3 con una sola NIC: En el caso de las VMs A3 con 1 a 4 GPUs conectadas, solo está disponible una sola tarjeta de interfaz de red (NIC) física.
  • VMs A3 con varias NIC: En el caso de las VMs A3 con 8 GPUs conectadas, hay varias NIC físicas disponibles. Para estos tipos de máquinas A3, las NIC se organizan de la siguiente manera en un bus exprés de interconexión de componentes periféricos (PCIe):
    • Para el tipo de máquina Mega A3, hay disponible una disposición de NIC de 8+1. Con esta disposición, 8 NICs comparten el mismo bus PCIe y 1 NIC reside en un bus PCIe independiente.
    • Para el tipo de máquina A3 High, hay disponible una disposición de NIC de 4+1. Con esta disposición, 4 NICs comparten el mismo bus PCIe y 1 NIC reside en un bus PCIe independiente.
    • Para el tipo de máquina A3 Edge, hay disponible una disposición de NIC de 4+1. Con esta disposición, 4 NICs comparten el mismo bus PCIe y 1 NIC reside en un bus PCIe independiente. Estas 5 NIC proporcionan un ancho de banda de red total de 400 Gbps para cada VM.

    Las NIC que comparten el mismo bus PCIe tienen una alineación de acceso de memoria no uniforme (NUMA) de una NIC por dos GPU NVIDIA H100 de 80 GB. Estas NIC son ideales para la comunicación dedicada de gran ancho de banda de GPU a GPU. La NIC física que reside en un bus PCIe independiente es ideal para otras necesidades de red. Si deseas obtener instrucciones para configurar redes para las VMs A3 High y A3 Edge, consulta Configura redes MTU de marcos jumbo.

A3 Mega

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)
a3-megagpu-8g 8 640 208 1,872 6,000 9 1,800

A3 High

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)
a3-highgpu-1g 1 80 26 234 750 1 25
a3-highgpu-2g 2 160 52 468 1,500 1 50
a3-highgpu-4g 4 320 104 936 3,000 1 100
a3-highgpu-8g 8 640 208 1,872 6,000 5 1,000

A3 Edge

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Cantidad de NICs físicas Ancho de banda de red máximo (Gbps)
a3-edgegpu-8g 8 640 208 1,872 6,000 5
  • 800: para asia-south1 y northamerica-northeast2
  • 400: para todas las demás regiones de Edge A3

*La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.

Tipos de máquinas A2

Cada tipo de máquina A2 tiene una cantidad fija de GPU NVIDIA A100 de 40 GB o NVIDIA A100 de 80 GB conectadas. Cada tipo de máquina también tiene un recuento fijo de CPU virtuales y de tamaño de memoria.

Las series de máquinas A2 están disponibles en dos tipos:

  • A2 Ultra: Estos tipos de máquinas tienen GPU A100 de 80 GB y discos SSD local conectados.
  • A2 estándar: Estos tipos de máquinas tienen GPU A100 de 40 GB conectadas.

A2 ultra

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Ancho de banda de red máximo (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1,500 50
a2-ultragpu-8g 8 640 96 1,360 3,000 100

A2 estándar

Tipo de máquina Recuento de GPU Memoria de GPU*
(GB HBM3)
Recuento de CPU virtuales Memoria de VM (GB) SSD local conectado (GiB) Ancho de banda de red máximo (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1,360 100

*La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.

Tipos de máquinas G2

Cada tipo de máquina G2 tiene una cantidad fija de GPU NVIDIA L4 y CPU virtuales conectadas. Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puedes asignar a tu VM para cada tipo de máquina. Puedes especificar la memoria personalizada durante la creación de la VM.

Para obtener las tasas de ancho de banda de red más altas (50 Gbps o más) aplicadas a la mayoría de las instancias de GPU, te recomendamos que uses una NIC virtual de Google (gVNIC). Si quieres más información para crear instancias de GPU que usen gVNIC, consulta Crea instancias de GPU que usen anchos de banda más altos.

Tipo de máquina Recuento de GPU Memoria de GPU* (GB GDDR6) Recuento de CPU virtuales Memoria de VM predeterminada (GB) Rango de memoria de VM personalizado (GB) Máximo de SSD local admitido (GiB) Ancho de banda de red máximo (Gbps)
g2-standard-4 1 24 4 16 De 16 a 32 375 10
g2-standard-8 1 24 8 32 De 32 a 54 375 16
g2-standard-12 1 24 12 48 De 48 a 54 375 16
g2-standard-16 1 24 16 64 De 54 a 64 375 32
g2-standard-24 2 48 24 96 De 96 a 108 750 32
g2-standard-32 1 24 32 128 De 96 a 128 375 32
g2-standard-48 4 96 48 192 De 192 a 216 1,500 50
g2-standard-96 8 192 96 384 De 384 a 432 3,000 100

*La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la VM y está diseñado de forma específica para manejar las demandas más altas de ancho de banda de tus cargas de trabajo de alto contenido gráfico.
Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores. Consulta Ancho de banda de red.

Tipos de máquinas N1 + GPU

Para las instancias de uso general N1 que tienen adjuntas las GPU T4 y V100, puedes obtener un ancho de banda de red máximo de hasta 100 Gbps, según la combinación de la cantidad de GPU y CPU virtuales. Para todas las demás instancias de GPU N1, consulta Descripción general.

Revisa la siguiente sección para calcular el ancho de banda de red máximo disponible para tus instancias de T4 y V100 según el modelo de GPU, la CPU virtual y la cantidad de GPU.

Menos de 5 CPU virtuales

Para las instancias de T4 y V100 que tienen 5 CPU virtuales o menos, hay un ancho de banda de red máximo de 10 Gbps.

Más de 5 CPU virtuales

Para las instancias de T4 y V100 que tienen más de 5 CPU virtuales, el ancho de banda máximo de la red se calcula en función de la cantidad de CPU virtuales y GPU para esa VM.

Para obtener las tasas de ancho de banda de red más altas (50 Gbps o más) aplicadas a la mayoría de las instancias de GPU, te recomendamos que uses una NIC virtual de Google (gVNIC). Si quieres más información para crear instancias de GPU que usen gVNIC, consulta Crea instancias de GPU que usen anchos de banda más altos.

Modelo de GPU Cantidad de GPU Cálculo del ancho de banda de red máximo
NVIDIA V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
NVIDIA T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

Crea máquinas de GPU con ancho de banda alto

Para crear instancias de GPU que usen anchos de banda de red más altos, usa uno de los siguientes métodos según el tipo de máquina:

Próximos pasos