TPU v5p
En este documento se describen la arquitectura y las configuraciones admitidas de la versión 5p de TPU de Cloud.
Arquitectura del sistema
En esta sección se describe la arquitectura del sistema específica de la versión v5p. Cada Tensor Core tiene cuatro unidades de matriz (MXU), una unidad vectorial y una unidad escalar.
Hay 8960 chips en una sola porción v5p. La tarea más grande que se puede programar es un cubo de 96 (6144 chips).
En la siguiente tabla se muestran las especificaciones clave de una v5p.
Especificaciones principales | Valores de v5p |
---|---|
Rendimiento máximo de cálculo por chip (bf16) | 459 TFLOPS |
Capacidad y ancho de banda de HBM2e | 95 GB, 2765 GB/s |
Tamaño del pod de TPUs | 8960 chips |
Topología de interconexión | Toroide 3D * |
Ancho de banda de interconexión entre chips | 4800 Gbps |
Configuraciones
Un pod de TPU v5p se compone de 8960 chips interconectados con enlaces de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias formas. Cuando creas un segmento de TPU con el comando gcloud compute tpus tpu-vm create
, especificas su tipo y forma con el parámetro AcceleratorType
.
En la siguiente tabla se muestran las formas de un solo segmento más habituales que se admiten en v5p, así como la mayoría (pero no todas) de las formas de cubo completo de más de un cubo. La forma máxima de v5p es 16x16x24 (6144 chips y 96 cubos).
Topología | Núcleos | Patatas fritas | Anfitriones | Cubos | ¿Es compatible con Twisted? |
2x2x1 | 8 | 4 | 1 | N/A | N/A |
2x2x2 | 16 | 8 | 2 | N/A | N/A |
2x4x4 | 64 | 32 | 8 | N/A | N/A |
4x4x4 | 128 | 64 | 16 | 1 | N/A |
4x4x8 | 256 | 128 | 32 | 2 | Sí |
4x8x8 | 512 | 256 | 64 | 4 | Sí |
8x8x8 | 1024 | 512 | 128 | 8 | N/A |
8x8x16 | 2048 | 1024 | 256 | 16 | Sí |
8x16x16 | 4096 | 2048 | 512 | 32 | Sí |
16x16x16 | 8192 | 4096 | 1024 | 64 | N/A |
16x16x24 | 12288 | 6144 | 1536 | 96 | N/A |
El entrenamiento de un solo segmento se admite en hasta 6144 chips. Puedes ampliar hasta 18.432 chips con Multislice. Para obtener más información sobre Multislice, consulta el artículo Introducción a Multislice de la TPU de Cloud.
Usar el parámetro AcceleratorType
Cuando asignas recursos de TPU, usas el argumento --accelerator-type
para especificar el número de TensorCores de un segmento. --accelerator-type
es una cadena con formato "v$VERSION_NUMBER
p-$CORES_COUNT
".
Por ejemplo, v5p-32
especifica un segmento de TPU v5p con 32 Tensor Cores (16 chips).
Para aprovisionar TPUs para una tarea de entrenamiento de v5p, usa uno de los siguientes tipos de acelerador en tu solicitud de creación de la API de TPU o de la CLI:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (un cubo o bastidor completo)
- v5p-256 (2 cubos)
- v5p-512
- v5p-1024 ... v5p-12288
El siguiente comando crea un segmento de TPU v5p con 256 TensorCores v5p (128 chips) para el entrenamiento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Para obtener más información sobre cómo gestionar las TPUs, consulta Gestionar TPUs. Para obtener más información sobre la arquitectura del sistema de las TPU de Cloud, consulta Arquitectura del sistema.
Resistencia de ICI de TPU de Cloud
La resiliencia de ICI ayuda a mejorar la tolerancia a fallos de los enlaces ópticos y los conmutadores de circuitos ópticos (OCS) que conectan las TPUs entre cubos. Las conexiones ICI de un cubo usan enlaces de cobre que no se ven afectados. La resiliencia de ICI permite que las conexiones ICI se enruten para evitar los errores de ICI ópticos y de OCS. Como resultado, se mejora la disponibilidad de programación de las porciones de TPU, pero se produce una degradación temporal del rendimiento de ICI.
Al igual que en la versión 4 de TPU de Cloud, la resiliencia de ICI está habilitada de forma predeterminada en los slices de la versión 5p que tienen un cubo o más:
- v5p-128 al especificar el tipo de acelerador
- 4x4x4 al especificar la configuración del acelerador
Propiedades de la VM, el host y el segmento
Propiedad | Valor de una TPU |
Número de chips v5p | 4 |
Número de vCPUs | 208 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs) |
RAM (GB) | 448 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs) |
# of NUMA Nodes | 2 |
Rendimiento de NIC (Gbps) | 200 |
Relación entre el número de Tensor Cores, chips, hosts/VMs y cubos de un pod:
Núcleos | Chips | Hosts o VMs | Cubos | |
---|---|---|---|---|
Anfitrión | 8 | 4 | 1 | |
Cube (también llamado rack) | 128 | 64 | 16 | 1 |
Tamaño máximo de la porción admitida | 12288 | 6144 | 1536 | 96 |
Pod completo v5p | 17920 | 8960 | 2240 | 140 |