Questions fréquentes – Cloud TPU
Ce document contient une liste de questions fréquentes sur les Cloud TPU. Il est divisé en sections :
- Questions fréquentes indépendantes du framework : questions sur l'utilisation des Cloud TPU, quel que soit le framework de ML que vous utilisez.
- Questions fréquentes sur JAX : questions sur l'utilisation des Cloud TPU avec JAX.
- Questions fréquentes sur PyTorch : questions sur l'utilisation de Cloud TPU avec PyTorch.
Questions fréquentes indépendantes du framework
Comment vérifier quel processus utilise le TPU sur une VM Cloud TPU ?
Exécutez tpu-info
sur la VM Cloud TPU pour afficher l'ID du processus et d'autres informations sur le processus à l'aide du TPU. Pour connaître les métriques et leurs définitions, consultez Métriques acceptées.
tpu-info
Le résultat de tpu-info
ressemble à ce qui suit :
TPU Chips
┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
┃ Chip ┃ Type ┃ Devices ┃ PID ┃
┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
│ /dev/accel0 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel1 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel2 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel3 │ TPU v4 chip │ 1 │ 130007 │
└─────────────┴─────────────┴─────────┴────────┘
TPU Runtime Utilization
┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃ Device ┃ Memory usage ┃ Duty cycle ┃
┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│ 0 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 1 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 2 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 3 │ 0.00 GiB / 31.75 GiB │ 0.00% │
└────────┴──────────────────────┴────────────┘
TensorCore Utilization
┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ Chip ID ┃ TensorCore Utilization ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
│ 0 │ 0.00% │
│ 1 │ 0.00% │
│ 3 │ 0.00% │
│ 2 │ 0.00% |
└─────────┴────────────────────────┘
Buffer Transfer Latency
┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
│ 8MB+ | 0us │ 0us │ 0us │ 0us |
└─────────────┴─────┴─────┴─────┴──────┘
Comment ajouter un volume de disque persistant à une VM Cloud TPU ?
Pour en savoir plus, consultez Ajouter un disque persistant à une VM TPU.
Quelles options de stockage sont compatibles ou recommandées pour l'entraînement avec une VM TPU ?
Pour en savoir plus, consultez Options de stockage Cloud TPU.
Questions fréquentes sur JAX
Comment savoir si le TPU est utilisé par mon programme ?
Voici quelques façons de vérifier que JAX utilise bien la TPU :
Utilisez la fonction
jax.devices()
. Exemple :assert jax.devices()[0].platform == 'tpu'
Profilez votre programme et vérifiez que le profil contient des opérations TPU. Pour en savoir plus, consultez Profiler des programmes JAX.
Pour en savoir plus, consultez les questions fréquentes sur JAX.
Questions fréquentes sur PyTorch
Comment savoir si le TPU est utilisé par mon programme ?
Vous pouvez exécuter les commandes Python suivantes :
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
Vérifiez si vous pouvez voir des appareils TPU.