Redes y máquinas GPU


Los anchos de banda de red más altos pueden mejorar el rendimiento de tus instancias de GPU para admitir cargas de trabajo distribuidas que se ejecutan en Compute Engine.

El ancho de banda de red máximo que está disponible para instancias con GPU conectadas en Compute Engine es el siguiente:

  • Para instancias optimizadas para aceleradores A4 y A3, puede obtener un ancho de banda de red máximo de hasta 3600 Gbps, según el tipo de máquina.
  • Para instancias optimizadas para aceleradores A2 y G2, puede obtener un ancho de banda de red máximo de hasta 100 Gbps, según el tipo de máquina.
  • Para las instancias N1 de uso general que tienen GPU P100 y P4 conectadas, está disponible un ancho de banda de red máximo de 32 Gbps. Esto es similar a la tasa máxima disponible para instancias N1 que no tienen GPU conectadas. Para obtener más información sobre los anchos de banda de la red, consulte velocidad máxima de datos de salida .
  • Para las instancias N1 de uso general que tienen GPU T4 y V100 conectadas, puede obtener un ancho de banda de red máximo de hasta 100 Gbps, según la combinación de GPU y vCPU.

Revisar el ancho de banda de la red y la disposición de la NIC

Utilice la siguiente sección para revisar la disposición de la red y la velocidad del ancho de banda para cada tipo de máquina GPU.

Tipos de máquinas A4 y A3 Ultra

Los tipos de máquinas A4 tienen GPU NVIDIA B200 conectadas y los tipos de máquinas A3 Ultra tienen GPU NVIDIA H200 de 141 GB conectadas.

Estos tipos de máquinas proporcionan ocho tarjetas de interfaz de red (NIC) NVIDIA ConnectX-7 (CX7) y dos NIC virtuales de Google (gVNIC). Las ocho NIC CX7 ofrecen un ancho de banda de red total de 3200 Gbps. Estas NIC están dedicadas únicamente a la comunicación de GPU a GPU de alto ancho de banda y no se pueden utilizar para otras necesidades de red, como el acceso público a Internet. Como se describe en el siguiente diagrama, cada NIC CX7 está alineada con una GPU para optimizar el acceso a memoria no uniforme (NUMA). Las ocho GPU pueden comunicarse rápidamente entre sí mediante el puente NVLink de todos a todos que las conecta. Las otras dos tarjetas de interfaz de red gVNIC son NIC inteligentes que proporcionan 400 Gbps adicionales de ancho de banda de red para requisitos de red de uso general. Combinadas, las tarjetas de interfaz de red proporcionan un ancho de banda de red máximo total de 3600 Gbps para estas máquinas.

Arquitectura de red para A4 y A3 Ultra.
Figura 1. Arquitectura de red para A4 y A3 Ultra

Para utilizar estas múltiples NIC, debe crear 3 redes de nube privada virtual de la siguiente manera:

  • 2 redes VPC: cada NIC gVNIC debe conectarse a una red VPC diferente
  • 1 red VPC para RDMA: las ocho NIC CX7 comparten la misma red VPC

Para configurar estas redes, consulte Crear redes VPC en la documentación de AI Hypercomputer.

Máquinas virtuales A4

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3e)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a4-highgpu-8g 8 1.440 224 3.968 12.000 10 3.600

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Máquinas virtuales A3 Ultra

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3e)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-ultragpu-8g 8 1128 224 2.952 12.000 10 3.600

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Tipos de máquinas A3 Mega, High y Edge

Estos tipos de máquinas tienen GPU H100 de 80 GB conectadas. Cada uno de estos tipos de máquinas tiene un recuento de GPU, un recuento de vCPU y un tamaño de memoria fijos.

  • Máquinas virtuales A3 con una sola NIC : para las máquinas virtuales A3 con de 1 a 4 GPU conectadas, solo está disponible una única tarjeta de interfaz de red física (NIC).
  • Máquinas virtuales A3 con varias NIC : para las máquinas virtuales A3 con 8 GPUS conectadas, hay varias NIC físicas disponibles. Para estos tipos de máquinas A3, las NIC están dispuestas de la siguiente manera en un bus Peripheral Component Interconnect Express (PCIe):
    • Para el tipo de máquina A3 Mega : está disponible una disposición de NIC de 8+1. Con esta disposición, 8 NIC comparten el mismo bus PCIe y 1 NIC reside en un bus PCIe independiente.
    • Para el tipo de máquina A3 High : está disponible una disposición de NIC de 4+1. Con esta disposición, 4 NIC comparten el mismo bus PCIe y 1 NIC reside en un bus PCIe independiente.
    • Para el tipo de máquina A3 Edge : está disponible una disposición de NIC de 4+1. Con esta disposición, 4 NIC comparten el mismo bus PCIe y 1 NIC reside en un bus PCIe independiente. Estas 5 NIC proporcionan un ancho de banda de red total de 400 Gbps para cada VM.

    Las NIC que comparten el mismo bus PCIe tienen una alineación de acceso a memoria no uniforme (NUMA) de una NIC por cada dos GPU NVIDIA H100 de 80 GB. Estas NIC son ideales para la comunicación de GPU a GPU dedicada de gran ancho de banda. La NIC física que reside en un bus PCIe independiente es ideal para otras necesidades de red. Para obtener instrucciones sobre cómo configurar redes para máquinas virtuales A3 High y A3 Edge, consulte configurar redes MTU de marco gigante .

A3 Mega

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-megagpu-8g 8 640 208 1.872 6.000 9 1.800

A3 alto

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-highgpu-1g 1 80 26 234 750 1 25
a3-highgpu-2g 2 160 52 468 1.500 1 50
a3-highgpu-4g 4 320 104 936 3.000 1 100
a3-highgpu-8g 8 640 208 1.872 6.000 5 1.000

Borde A3

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Recuento de NIC física Ancho de banda máximo de red (Gbps)
a3-edgegpu-8g 8 640 208 1.872 6.000 5

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Tipos de máquinas A2

Cada tipo de máquina A2 tiene un número fijo de GPU NVIDIA A100 de 40 GB o NVIDIA A100 de 80 GB conectadas. Cada tipo de máquina también tiene un número de vCPU y un tamaño de memoria fijos.

La serie de máquinas A2 está disponible en dos tipos:

  • A2 Ultra: estos tipos de máquinas tienen GPU A100 de 80 GB y discos SSD locales conectados.
  • Estándar A2: estos tipos de máquinas tienen GPU A100 de 40 GB conectadas.

A2 Ultra

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Ancho de banda máximo de red (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1.500 50
a2-ultragpu-8g 8 640 96 1.360 3.000 100

Estándar A2

Tipo de máquina recuento de GPU Memoria GPU *
(GB HBM3)
Recuento de vCPU Memoria de máquina virtual (GB) SSD local adjunto (GiB) Ancho de banda máximo de red (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1.360 100

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Tipos de máquinas G2

Cada tipo de máquina G2 tiene una cantidad fija de GPU y vCPU NVIDIA L4 conectadas. Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puede asignar a su VM para cada tipo de máquina. Puede especificar su memoria personalizada durante la creación de VM.

Para aplicar velocidades de ancho de banda de red más altas (50 Gbps o más) a la mayoría de las instancias de GPU, se recomienda utilizar Google Virtual NIC (gVNIC). Para obtener más información sobre la creación de instancias de GPU que utilizan gVNIC, consulte Creación de instancias de GPU que utilizan anchos de banda superiores .

Tipo de máquina recuento de GPU Memoria GPU * (GB GDDR6) Recuento de vCPU Memoria de máquina virtual predeterminada (GB) Rango de memoria de VM personalizado (GB) Máximo SSD local admitido (GiB) Ancho de banda máximo de red (Gbps)
g2-standard-4 1 24 4 16 16 a 32 375 10
g2-standard-8 1 24 8 32 32 a 54 375 16
g2-standard-12 1 24 12 48 48 a 54 375 16
g2-standard-16 1 24 16 64 54 a 64 375 32
g2-standard-24 2 48 24 96 96 a 108 750 32
g2-standard-32 1 24 32 128 96 a 128 375 32
g2-standard-48 4 96 48 192 192 a 216 1.500 50
g2-standard-96 8 192 96 384 384 a 432 3.000 100

* La memoria GPU es la memoria de un dispositivo GPU que se puede utilizar para el almacenamiento temporal de datos. Está separado de la memoria de la máquina virtual y está diseñado específicamente para manejar las mayores demandas de ancho de banda de sus cargas de trabajo con uso intensivo de gráficos.
Una vCPU se implementa como un único hiperproceso de hardware en una de las plataformas de CPU disponibles.
El ancho de banda máximo de salida no puede exceder el número indicado. El ancho de banda de salida real depende de la dirección IP de destino y otros factores. Consulte Ancho de banda de la red .

Tipos de máquinas N1 + GPU

Para las instancias N1 de uso general que tienen GPU T4 y V100 conectadas, puede obtener un ancho de banda de red máximo de hasta 100 Gbps, según la combinación de GPU y vCPU. Para todas las demás instancias de GPU N1, consulte Descripción general .

Revise la siguiente sección para calcular el ancho de banda de red máximo disponible para sus instancias T4 y V100 según el modelo de GPU, vCPU y recuento de GPU.

Menos de 5 vCPU

Para instancias T4 y V100 que tienen 5 vCPU o menos, está disponible un ancho de banda de red máximo de 10 Gbps.

Más de 5 vCPU

Para las instancias T4 y V100 que tienen más de 5 vCPU, el ancho de banda máximo de la red se calcula en función de la cantidad de vCPU y GPU para esa VM.

Para aplicar velocidades de ancho de banda de red más altas (50 Gbps o más) a la mayoría de las instancias de GPU, se recomienda utilizar Google Virtual NIC (gVNIC). Para obtener más información sobre la creación de instancias de GPU que utilizan gVNIC, consulte Creación de instancias de GPU que utilizan anchos de banda superiores .

modelo de GPU Número de GPU Cálculo del ancho de banda máximo de la red
Nvidia V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
Nvidia T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

Cree máquinas GPU de gran ancho de banda

Para crear instancias de GPU que utilicen anchos de banda de red más altos, utilice uno de los siguientes métodos según el tipo de máquina:

¿Qué sigue?