TPU v5p
En este documento, se describen la arquitectura y las configuraciones compatibles de la Cloud TPU v5p.
Arquitectura del sistema
En esta sección, se describe la arquitectura del sistema específica de la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matrices (MXU), una unidad vectorial y una unidad escalar.
Hay 8,960 chips en una sola porción de v5p. El trabajo más grande que se puede programar es un trabajo de 96 cubos (6,144 chips).
En la siguiente tabla, se muestran las especificaciones clave de una v5p.
Especificaciones clave | Valores de v5p |
---|---|
Procesamiento máximo por chip (bf16) | 459 TFLOPS |
Capacidad y ancho de banda de HBM2e | 95 GB, 2,765 GB/s |
Tamaño del pod de TPU | 8960 chips |
Topología de interconexión | Toroide en 3D * |
BW de interconexión entre chips | 4800 Gbps |
Configuraciones
Un pod de TPU v5p se compone de 8,960 chips interconectados con vínculos de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias maneras. Cuando creas una porción de TPU con el comando gcloud compute tpus tpu-vm create
, especificas su tipo y forma con el parámetro AcceleratorType
.
En la siguiente tabla, se muestran las formas de una sola división más comunes que se admiten con v5p, además de la mayoría (pero no todas) de las formas de cubo completo mayores que 1 cubo. La forma máxima de v5p es de 16 x 16 x 24 (6, 144 chips y 96 cubos).
Topología | Núcleos | Papas fritas | Hosts | Cubos | ¿Es compatible con Twisted? |
2x2x1 | 8 | 4 | 1 | N/A | N/A |
2x2x2 | 16 | 8 | 2 | N/A | N/A |
2x4x4 | 64 | 32 | 8 | N/A | N/A |
4x4x4 | 128 | 64 | 16 | 1 | N/A |
4x4x8 | 256 | 128 | 32 | 2 | Sí |
4x8x8 | 512 | 256 | 64 | 4 | Sí |
8 x 8 x 8 | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | 2,048 | 1024 | 256 | 16 | Sí |
8x16x16 | 4096 | 2,048 | 512 | 32 | Sí |
16 x 16 x 16 | 8192 | 4096 | 1024 | 64 | N/A |
16 x 16 x 24 | 12288 | 6144 | 1,536 | 96 | N/A |
Se admite el entrenamiento de un solo segmento para hasta 6,144 chips. Puedes escalar hasta 18,432 chips con Multislice. Para obtener más información sobre Multislice, consulta Descripción general de Cloud TPU Multislice.
Cómo usar el parámetro AcceleratorType
Cuando asignas recursos de TPU, usas el argumento --accelerator-type
para especificar la cantidad de TensorCores en una porción. --accelerator-type
es una cadena con formato "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por ejemplo, v5p-32
especifica un fragmento de TPU v5p con 32 TensorCores (16 chips).
Para aprovisionar TPUs para un trabajo de entrenamiento con v5p, usa uno de los siguientes tipos de aceleradores en tu CLI o en la solicitud de creación de la API de TPU:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo o bastidor completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024… v5p-12288
El siguiente comando crea un segmento de TPU v5p con 256 TensorCores v5p (128 chips) para el entrenamiento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Para obtener más información sobre la administración de TPU, consulta Administra TPUs. Para obtener más información sobre la arquitectura del sistema de Cloud TPU, consulta Arquitectura del sistema.
Resistencia de la ICI de Cloud TPU
La resiliencia de ICI ayuda a mejorar la tolerancia a fallas de las conexiones ópticas y los conmutadores de circuitos ópticos (OCS) que conectan las TPU entre los cubos. (Las conexiones ICI dentro de un cubo usan enlaces de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones de ICI se enruten alrededor de las fallas de OCS y de ICI ópticas. Como resultado, mejora la disponibilidad de programación de las porciones de TPU, con la desventaja de una degradación temporal en el rendimiento de la ICI.
Al igual que con Cloud TPU v4, la resiliencia de ICI está habilitada de forma predeterminada para las particiones de v5p que son de un cubo o más grandes:
- v5p-128 cuando se especifica el tipo de acelerador
- 4x4x4 cuando se especifica la configuración del acelerador
Propiedades de la VM, el host y la segmentación
Propiedad | Valor en una TPU |
Cantidad de chips v5p | 4 |
Cantidad de CPUs virtuales | 208 (solo la mitad es utilizable si se usa la vinculación NUMA para evitar la penalización del rendimiento entre NUMA) |
RAM (GB) | 448 (solo la mitad es utilizable si se usa la vinculación NUMA para evitar la penalización del rendimiento entre NUMA) |
Cantidad de nodos de NUMA | 2 |
Capacidad de procesamiento de la NIC (Gbps) | 200 |
Relación entre la cantidad de TensorCores, chips, hosts/VMs y cubos en un Pod:
Núcleos | Chips | Hosts o VMs | Cubes | |
---|---|---|---|---|
Host | 8 | 4 | 1 | |
Cubo (también conocido como bastidor) | 128 | 64 | 16 | 1 |
Segmento más grande admitido | 12288 | 6144 | 1,536 | 96 |
Pod v5p completo | 17920 | 8960 | 2240 | 140 |