Preguntas frecuentes sobre Cloud TPU
Este documento contiene una lista de preguntas frecuentes sobre las TPU de Cloud. Se divide en secciones:
- Preguntas frecuentes independientes del framework: preguntas sobre el uso de las TPUs de Cloud, independientemente del framework de aprendizaje automático que utilices.
- Preguntas frecuentes sobre JAX: preguntas sobre el uso de TPUs de Cloud con JAX.
- Preguntas frecuentes sobre PyTorch: preguntas sobre el uso de TPUs de Cloud con PyTorch.
Preguntas frecuentes independientes del framework
¿Cómo puedo comprobar qué proceso está usando la TPU en una máquina virtual de TPU de Cloud?
Ejecuta tpu-info
en la máquina virtual de TPU de Cloud para imprimir el ID del proceso y otra información sobre el proceso que usa la TPU. Consulta las métricas admitidas y sus definiciones.
tpu-info
La salida de tpu-info
es similar a la siguiente:
TPU Chips
┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
┃ Chip ┃ Type ┃ Devices ┃ PID ┃
┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
│ /dev/accel0 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel1 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel2 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel3 │ TPU v4 chip │ 1 │ 130007 │
└─────────────┴─────────────┴─────────┴────────┘
TPU Runtime Utilization
┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃ Device ┃ Memory usage ┃ Duty cycle ┃
┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│ 0 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 1 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 2 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 3 │ 0.00 GiB / 31.75 GiB │ 0.00% │
└────────┴──────────────────────┴────────────┘
TensorCore Utilization
┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ Chip ID ┃ TensorCore Utilization ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
│ 0 │ 0.00% │
│ 1 │ 0.00% │
│ 3 │ 0.00% │
│ 2 │ 0.00% |
└─────────┴────────────────────────┘
Buffer Transfer Latency
┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
│ 8MB+ | 0us │ 0us │ 0us │ 0us |
└─────────────┴─────┴─────┴─────┴──────┘
¿Cómo puedo añadir un volumen de disco persistente a una máquina virtual de TPU de Cloud?
Para obtener más información, consulta Añadir un disco persistente a una máquina virtual de TPU.
¿Qué opciones de almacenamiento se admiten o recomiendan para entrenar modelos con una VM de TPU?
Para obtener más información, consulta las opciones de almacenamiento de TPU de Cloud.
Preguntas frecuentes sobre JAX
¿Cómo puedo saber si mi programa está usando la TPU?
Hay varias formas de comprobar que JAX está usando la TPU:
Usa la función
jax.devices()
. Por ejemplo:assert jax.devices()[0].platform == 'tpu'
Crea un perfil de tu programa y comprueba que contiene operaciones de TPU. Para obtener más información, consulta Creación de perfiles de programas JAX.
Para obtener más información, consulta las preguntas frecuentes de JAX.
Preguntas frecuentes sobre PyTorch
¿Cómo puedo saber si mi programa está usando la TPU?
Puedes ejecutar los siguientes comandos de Python:
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
Comprueba si puedes ver algún dispositivo TPU.