TPU v5p

En este documento se describen la arquitectura y las configuraciones admitidas de la versión 5p de TPU de Cloud.

Arquitectura del sistema

En esta sección se describe la arquitectura del sistema específica de la versión v5p. Cada Tensor Core tiene cuatro unidades de matriz (MXU), una unidad vectorial y una unidad escalar.

Hay 8960 chips en una sola porción v5p. La tarea más grande que se puede programar es un cubo de 96 (6144 chips).

En la siguiente tabla se muestran las especificaciones clave de una v5p.

Especificaciones principales Valores de v5p
Rendimiento máximo de cálculo por chip (bf16) 459 TFLOPS
Capacidad y ancho de banda de HBM2e 95 GB, 2765 GB/s
Tamaño del pod de TPUs 8960 chips
Topología de interconexión Toroide 3D *
Ancho de banda de interconexión entre chips 4800 Gbps

Configuraciones

Un pod de TPU v5p se compone de 8960 chips interconectados con enlaces de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias formas. Cuando creas un segmento de TPU con el comando gcloud compute tpus tpu-vm create, especificas su tipo y forma con el parámetro AcceleratorType.

En la siguiente tabla se muestran las formas de un solo segmento más habituales que se admiten en v5p, así como la mayoría (pero no todas) de las formas de cubo completo de más de un cubo. La forma máxima de v5p es 16x16x24 (6144 chips y 96 cubos).

Topología Núcleos Patatas fritas Anfitriones Cubos ¿Es compatible con Twisted?
2x2x1 8 4 1 N/A N/A
2x2x2 16 8 2 N/A N/A
2x4x4 64 32 8 N/A N/A
4x4x4 128 64 16 1 N/A
4x4x8 256 128 32 2
4x8x8 512 256 64 4
8x8x8 1024 512 128 8 N/A
8x8x16 2048 1024 256 16
8x16x16 4096 2048 512 32
16x16x16 8192 4096 1024 64 N/A
16x16x24 12288 6144 1536 96 N/A

El entrenamiento de un solo segmento se admite en hasta 6144 chips. Puedes ampliar hasta 18.432 chips con Multislice. Para obtener más información sobre Multislice, consulta el artículo Introducción a Multislice de la TPU de Cloud.

Usar el parámetro AcceleratorType

Cuando asignas recursos de TPU, usas el argumento --accelerator-type para especificar el número de TensorCores de un segmento. --accelerator-type es una cadena con formato "v$VERSION_NUMBERp-$CORES_COUNT". Por ejemplo, v5p-32 especifica un segmento de TPU v5p con 32 Tensor Cores (16 chips).

Para aprovisionar TPUs para una tarea de entrenamiento de v5p, usa uno de los siguientes tipos de acelerador en tu solicitud de creación de la API de TPU o de la CLI:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (un cubo o bastidor completo)
  • v5p-256 (2 cubos)
  • v5p-512
  • v5p-1024 ... v5p-12288

El siguiente comando crea un segmento de TPU v5p con 256 TensorCores v5p (128 chips) para el entrenamiento:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

Para obtener más información sobre cómo gestionar las TPUs, consulta Gestionar TPUs. Para obtener más información sobre la arquitectura del sistema de las TPU de Cloud, consulta Arquitectura del sistema.

Resistencia de ICI de TPU de Cloud

La resiliencia de ICI ayuda a mejorar la tolerancia a fallos de los enlaces ópticos y los conmutadores de circuitos ópticos (OCS) que conectan las TPUs entre cubos. Las conexiones ICI de un cubo usan enlaces de cobre que no se ven afectados. La resiliencia de ICI permite que las conexiones ICI se enruten para evitar los errores de ICI ópticos y de OCS. Como resultado, se mejora la disponibilidad de programación de las porciones de TPU, pero se produce una degradación temporal del rendimiento de ICI.

Al igual que en la versión 4 de TPU de Cloud, la resiliencia de ICI está habilitada de forma predeterminada en los slices de la versión 5p que tienen un cubo o más:

  • v5p-128 al especificar el tipo de acelerador
  • 4x4x4 al especificar la configuración del acelerador

Propiedades de la VM, el host y el segmento

Propiedad Valor de una TPU
Número de chips v5p 4
Número de vCPUs 208 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs)
RAM (GB) 448 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs)
# of NUMA Nodes 2
Rendimiento de NIC (Gbps) 200

Relación entre el número de Tensor Cores, chips, hosts/VMs y cubos de un pod:

Núcleos Chips Hosts o VMs Cubos
Anfitrión 8 4 1
Cube (también llamado rack) 128 64 16 1
Tamaño máximo de la porción admitida 12288 6144 1536 96
Pod completo v5p 17920 8960 2240 140