Esta página se ha traducido con Cloud Translation API.

TPU v5p

En este documento se describen la arquitectura y las configuraciones admitidas de la versión 5p de TPU de Cloud.

Arquitectura del sistema

En esta sección se describe la arquitectura del sistema específica de la versión v5p. Cada Tensor Core tiene cuatro unidades de matriz (MXU), una unidad vectorial y una unidad escalar.

Hay 8960 chips en una sola porción v5p. La tarea más grande que se puede programar es un cubo de 96 (6144 chips).

En la siguiente tabla se muestran las especificaciones clave de una v5p.

Especificaciones principales	Valores de v5p
Rendimiento máximo de cálculo por chip (bf16)	459 TFLOPS
Capacidad y ancho de banda de HBM2e	95 GB, 2765 GB/s
Tamaño del pod de TPUs	8960 chips
Topología de interconexión	Toroide 3D *
Ancho de banda de interconexión entre chips	4800 Gbps

Configuraciones

Un pod de TPU v5p se compone de 8960 chips interconectados con enlaces de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias formas. Cuando creas un segmento de TPU con el comando gcloud compute tpus tpu-vm create, especificas su tipo y forma con el parámetro AcceleratorType.

En la siguiente tabla se muestran las formas de un solo segmento más habituales que se admiten en v5p, así como la mayoría (pero no todas) de las formas de cubo completo de más de un cubo. La forma máxima de v5p es 16x16x24 (6144 chips y 96 cubos).

Topología	Núcleos	Patatas fritas	Anfitriones	Cubos	¿Es compatible con Twisted?
2x2x1	8	4	1	N/A	N/A
2x2x2	16	8	2	N/A	N/A
2x4x4	64	32	8	N/A	N/A
4x4x4	128	64	16	1	N/A
4x4x8	256	128	32	2	Sí
4x8x8	512	256	64	4	Sí
8x8x8	1024	512	128	8	N/A
8x8x16	2048	1024	256	16	Sí
8x16x16	4096	2048	512	32	Sí
16x16x16	8192	4096	1024	64	N/A
16x16x24	12288	6144	1536	96	N/A

El entrenamiento de un solo segmento se admite en hasta 6144 chips. Puedes ampliar hasta 18.432 chips con Multislice. Para obtener más información sobre Multislice, consulta el artículo Introducción a Multislice de la TPU de Cloud.

Usar el parámetro AcceleratorType

Cuando asignas recursos de TPU, usas el argumento --accelerator-type para especificar el número de TensorCores de un segmento. --accelerator-type es una cadena con formato "v$VERSION_NUMBERp-$CORES_COUNT". Por ejemplo, v5p-32 especifica un segmento de TPU v5p con 32 Tensor Cores (16 chips).

Para aprovisionar TPUs para una tarea de entrenamiento de v5p, usa uno de los siguientes tipos de acelerador en tu solicitud de creación de la API de TPU o de la CLI:

v5p-8
v5p-16
v5p-32
v5p-64
v5p-128 (un cubo o bastidor completo)
v5p-256 (2 cubos)
v5p-512
v5p-1024 ... v5p-12288

El siguiente comando crea un segmento de TPU v5p con 256 TensorCores v5p (128 chips) para el entrenamiento:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

Para obtener más información sobre cómo gestionar las TPUs, consulta Gestionar TPUs. Para obtener más información sobre la arquitectura del sistema de las TPU de Cloud, consulta Arquitectura del sistema.

Resistencia de ICI de TPU de Cloud

La resiliencia de ICI ayuda a mejorar la tolerancia a fallos de los enlaces ópticos y los conmutadores de circuitos ópticos (OCS) que conectan las TPUs entre cubos. Las conexiones ICI de un cubo usan enlaces de cobre que no se ven afectados. La resiliencia de ICI permite que las conexiones ICI se enruten para evitar los errores de ICI ópticos y de OCS. Como resultado, se mejora la disponibilidad de programación de las porciones de TPU, pero se produce una degradación temporal del rendimiento de ICI.

Al igual que en la versión 4 de TPU de Cloud, la resiliencia de ICI está habilitada de forma predeterminada en los slices de la versión 5p que tienen un cubo o más:

v5p-128 al especificar el tipo de acelerador
4x4x4 al especificar la configuración del acelerador

Propiedades de la VM, el host y el segmento

Propiedad	Valor de una TPU
Número de chips v5p	4
Número de vCPUs	208 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs)
RAM (GB)	448 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs)
# of NUMA Nodes	2
Rendimiento de NIC (Gbps)	200

Relación entre el número de Tensor Cores, chips, hosts/VMs y cubos de un pod:

	Núcleos	Chips	Hosts o VMs	Cubos
Anfitrión	8	4	1
Cube (también llamado rack)	128	64	16	1
Tamaño máximo de la porción admitida	12288	6144	1536	96
Pod completo v5p	17920	8960	2240	140