Treinamento do Cloud TPU v5e
Com uma pegada menor de 256 chips por pod, a TPU v5e é otimizada para ser um produto de alto valor para transformador, treinamento de texto para imagem e rede neural convolucional (CNN, na sigla em inglês) de treinamento, ajuste fino e veiculação. Para mais informações sobre como usar o Cloud TPU v5e para veiculação, consulte Inferência usando o v5e.
Para mais informações sobre o hardware e as configurações do Cloud TPU v5e, consulte TPU v5e.
Primeiros passos
As seções a seguir descrevem como começar a usar a TPU v5e.
Solicitação de cotas
É necessário ter cota para usar a TPU v5e no treinamento. Há diferentes tipos de cota para TPUs sob demanda, TPUs reservadas e VMs Spot da TPU. Há cotas separadas necessárias se você estiver usando a TPU v5e para inferência. Para mais informações sobre cotas, consulte Cotas. Para solicitar a cota da TPU v5e, entre em contato com a equipe de vendas do Google Cloud.
Criar uma conta e um projeto da Google Cloud
Você precisa de uma conta e um projeto do Google Cloud para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.
Criar uma Cloud TPU
A prática recomendada é provisionar Cloud TPUs v5 como recursos em fila
usando o comando queued-resource create
. Para mais informações, consulte
Gerenciar recursos na fila.
Você também pode usar a API Create Node (gcloud compute tpus tpu-vm create
) para provisionar Cloud TPUs v5. Para mais informações, consulte Gerenciar recursos de TPU.
Para mais informações sobre as configurações disponíveis para treinamento, consulte Tipos de Cloud TPU v5e para treinamento.
Configuração do framework
Esta seção descreve o processo de configuração geral para treinamento de modelos personalizados usando JAX ou PyTorch com TPU v5e.
Para instruções de configuração de inferência, consulte Introdução à inferência v5e.
Defina algumas variáveis de ambiente:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your_queued_resource_id
Configuração para o JAX
Se você tiver formas de fatia maiores que 8 chips, terá várias VMs em uma
fatia. Nesse caso, você precisa usar a flag --worker=all
para executar a
instalação em todas as VMs da TPU em uma única etapa sem usar o SSH para fazer login em cada
uma delas:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='pip install -U "jax[tpu]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Descrições de sinalizações de comando
Variável | Descrição |
TPU_NAME | O ID de texto atribuído pelo usuário do TPU, que é criado quando a solicitação de recurso em fila é alocada. |
PROJECT_ID | Google Cloud Nome do projeto. Use um projeto existente ou crie um novo em Configurar o projeto Google Cloud |
ZONA | Consulte o documento Regiões e zonas de TPU para conferir as zonas compatíveis. |
worker | A VM de TPU que tem acesso às TPUs subjacentes. |
Você pode executar o comando abaixo para verificar o número de dispositivos. As saídas mostradas aqui foram produzidas com uma fatia v5litepod-16. Esse código testa se tudo está instalado corretamente, verificando se o JAX encontra os TensorCores do Cloud TPU e pode executar operações básicas:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='python3 -c "import jax; print(jax.device_count()); print(jax.local_device_count())"'
A saída será semelhante a esta:
SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
SSH: Attempting to connect to worker 2...
SSH: Attempting to connect to worker 3...
16
4
16
4
16
4
16
4
jax.device_count()
mostra o número total de ícones na fração.
jax.local_device_count()
indica a contagem de chips acessíveis por uma única
VM nesta fatia.
# Check the number of chips in the given slice by summing the count of chips
# from all VMs through the
# jax.local_device_count() API call.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='python3 -c "import jax; xs=jax.numpy.ones(jax.local_device_count()); print(jax.pmap(lambda x: jax.lax.psum(x, \"i\"), axis_name=\"i\")(xs))"'
A saída será semelhante a esta:
SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
SSH: Attempting to connect to worker 2...
SSH: Attempting to connect to worker 3...
[16. 16. 16. 16.]
[16. 16. 16. 16.]
[16. 16. 16. 16.]
[16. 16. 16. 16.]
Teste os tutoriais do JAX neste documento para começar a treinar o v5e usando o JAX.
Configuração para PyTorch
A v5e oferece suporte apenas ao ambiente de execução do PJRT, e o PyTorch 2.1 e versões mais recentes vão usar o PJRT como o ambiente de execução padrão para todas as versões de TPU.
Esta seção descreve como começar a usar o PJRT na v5e com o PyTorch/XLA com comandos para todos os workers.
Instalar dependências
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' sudo apt-get update -y sudo apt-get install libomp5 -y pip install mkl mkl-include pip install tf-nightly tb-nightly tbp-nightly pip install numpy sudo apt-get install libopenblas-dev -y pip install torch~=PYTORCH_VERSION torchvision torch_xla[tpu]~=PYTORCH_VERSION -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html'
Substitua PYTORCH_VERSION
pela versão do PyTorch que você quer usar.
PYTORCH_VERSION
é usado para especificar a mesma versão para o PyTorch/XLA. A versão 2.6.0
é recomendada.
Para mais informações sobre as versões do PyTorch e do PyTorch/XLA, consulte PyTorch: Introdução e Versões do PyTorch/XLA.
Para mais informações sobre a instalação do PyTorch/XLA, consulte Instalação do PyTorch/XLA.
Se você receber um erro ao instalar as rodas para torch
, torch_xla
ou
torchvision
, como
pkg_resources.extern.packaging.requirements.InvalidRequirement: Expected end
or semicolon (after name and no valid version specifier) torch==nightly+20230222
,
desinstale a versão com este comando:
pip3 install setuptools==62.1.0
Executar um script com o PJRT
unset LD_PRELOAD
Confira a seguir um exemplo de uso de um script Python para fazer um cálculo em uma VM v5e:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/.local/lib/
export PJRT_DEVICE=TPU
export PT_XLA_DEBUG=0
export USE_TORCH=ON
unset LD_PRELOAD
export TPU_LIBRARY_PATH=$HOME/.local/lib/python3.10/site-packages/libtpu/libtpu.so
python3 -c "import torch; import torch_xla; import torch_xla.core.xla_model as xm; print(xm.xla_device()); dev = xm.xla_device(); t1 = torch.randn(3,3,device=dev); t2 = torch.randn(3,3,device=dev); print(t1 + t2)"'
Isso gera um resultado semelhante ao seguinte:
SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
xla:0
tensor([[ 1.8611, -0.3114, -2.4208],
[-1.0731, 0.3422, 3.1445],
[ 0.5743, 0.2379, 1.1105]], device='xla:0')
xla:0
tensor([[ 1.8611, -0.3114, -2.4208],
[-1.0731, 0.3422, 3.1445],
[ 0.5743, 0.2379, 1.1105]], device='xla:0')
Teste os tutoriais do PyTorch neste documento para começar a treinar o v5e usando o PyTorch.
Exclua a TPU e o recurso na fila no fim da sessão. Para excluir um recurso em fila, exclua a fatia e, em seguida, o recurso em duas etapas:
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Essas duas etapas também podem ser usadas para remover solicitações de recursos em fila que estão no
estado FAILED
.
Exemplos de JAX/FLAX
As seções a seguir descrevem exemplos de como treinar modelos JAX e FLAX na TPU v5e.
Treinar o ImageNet na v5e
Este tutorial descreve como treinar o ImageNet na v5e usando dados de entrada falsos. Se você quiser usar dados reais, consulte o arquivo README no GitHub.
Configurar
Crie variáveis de ambiente:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-8 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your_queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Você poderá fazer SSH na VM da TPU quando o recurso enfileirado estiver no estado
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Quando o QueuedResource estiver no estado
ACTIVE
, a saída será semelhante a esta:state: ACTIVE
Instale a versão mais recente do JAX e do jaxlib:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install -U "jax[tpu]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Clone o modelo ImageNet e instale os requisitos correspondentes:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command="git clone https://github.com/coolkp/flax.git && cd flax && git checkout pmap-orbax-conversion && git pull"
Para gerar dados falsos, o modelo precisa de informações sobre as dimensões do conjunto de dados. Isso pode ser coletado dos metadados do conjunto de dados do ImageNet:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command="cd flax/examples/imagenet && pip install -r requirements-cloud-tpu.txt"
Treine o modelo
Depois de concluir as etapas anteriores, você pode treinar o modelo.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command="cd flax/examples/imagenet && bash ../../tests/download_dataset_metadata.sh && JAX_PLATFORMS=tpu python imagenet_fake_data_benchmark.py"
Excluir a TPU e o recurso na fila
Exclua a TPU e o recurso na fila no fim da sessão.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Modelos FLAX do Hugging Face
Os modelos Hugging Face implementados no FLAX funcionam fora da caixa no Cloud TPU v5e. Esta seção fornece instruções para executar modelos populares.
Treinar o ViT no Imagenette
Neste tutorial, mostramos como treinar o modelo Vision Transformer (ViT) do HuggingFace usando o conjunto de dados Imagenette do Fast AI no Cloud TPU v5e.
O modelo ViT foi o primeiro a treinar um codificador Transformer no ImageNet com resultados excelentes em comparação com as redes convolucionais. Para mais informações, consulte os seguintes recursos:
Configurar
Crie variáveis de ambiente:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your_queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Você poderá usar o SSH na VM do TPU quando o recurso enfileirado estiver no estado
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Quando o recurso em fila estiver no estado
ACTIVE
, a saída será semelhante a esta:state: ACTIVE
Instale o JAX e a biblioteca dele:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install -U "jax[tpu]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Faça o download do repositório e instale os requisitos:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='git clone https://github.com/huggingface/transformers.git && cd transformers && pip install . && pip install -r examples/flax/_tests_requirements.txt && pip install --upgrade huggingface-hub urllib3 zipp && pip install tensorflow==2.17.1 && pip install -r examples/flax/vision/requirements.txt'
Faça o download do conjunto de dados Imagenette:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='cd transformers && wget https://s3.amazonaws.com/fast-ai-imageclas/imagenette2.tgz && tar -xvzf imagenette2.tgz'
Treine o modelo
Treine o modelo com um buffer pré-mapeado de 4 GB.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='cd transformers && JAX_PLATFORMS=tpu python3 examples/flax/vision/run_image_classification.py --train_dir "imagenette2/train" --validation_dir "imagenette2/val" --output_dir "./vit-imagenette" --learning_rate 1e-3 --preprocessing_num_workers 32 --per_device_train_batch_size 8 --per_device_eval_batch_size 8 --model_name_or_path google/vit-base-patch16-224-in21k --num_train_epochs 3'
Excluir a TPU e o recurso na fila
Exclua a TPU e o recurso na fila no fim da sessão.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Resultados do comparativo de mercado da ViT
O script de treinamento foi executado em v5litepod-4, v5litepod-16 e v5litepod-64. A tabela a seguir mostra as taxas de transferência com diferentes tipos de acelerador.
Tipo de acelerador | v5litepod-4 | v5litepod-16 | v5litepod-64 |
Período | 3 | 3 | 3 |
Tamanho global do lote | 32 | 128 | 512 |
Capacidade (exemplos/s) | 263,40 | 429.34 | 470,71 |
Treinar a difusão em Pokémon
Neste tutorial, mostramos como treinar o modelo de difusão estável do HuggingFace usando o conjunto de dados Pokémon no Cloud TPU v5e.
O modelo Stable Diffusion é um modelo latente de texto para imagem que gera imagens fotorrealistas a partir de qualquer entrada de texto. Para saber mais, acesse os recursos a seguir (links em inglês):
Configurar
Configure um bucket de armazenamento para a saída do modelo.
gcloud storage buckets create gs://your_bucket \ --project=your_project \ --location=us-west1
Criar variáveis de ambiente
export GCS_BUCKET_NAME=your_bucket export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west1-c export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
Descrições de sinalizações de comando
Variável Descrição GCS_BUCKET_NAME Exibida em Google Cloud console -> Cloud Storage -> Buckets PROJECT_ID Google Cloud Nome do projeto. Use um projeto existente ou crie um novo em Configurar seu Google Cloud projeto ACCELERATOR_TYPE Consulte a página Versões de TPU para sua versão de TPU. ZONA Consulte o documento Regiões e zonas de TPU para saber quais zonas são compatíveis. RUNTIME_VERSION Use v2-alpha-tpuv5 para a RUNTIME_VERSION. SERVICE_ACCOUNT Esse é o endereço da sua conta de serviço, que pode ser encontrado em Google Cloud console -> IAM -> Contas de serviço. Por exemplo: tpu-service-account@myprojectID.iam.gserviceaccount.com TPU_NAME O ID de texto atribuído pelo usuário do TPU, que é criado quando a solicitação de recurso em fila é alocada. QUEUED_RESOURCE_ID O ID de texto atribuído pelo usuário da solicitação de recurso em fila. Consulte o documento Recursos em fila para informações sobre recursos em fila. QUOTA_TYPE Pode ser reserved
ouspot
. Se nenhum deles for especificado, o padrão de QUOTA_TYPE seráon-demand
. Consulte cotas para informações sobre os diferentes tipos de cotas aceitos pela Cloud TPU.VALID_UNTIL_DURATION O período em que a solicitação é válida. Consulte Recursos em fila para informações sobre as diferentes durações válidas. -
gcloud compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Você poderá fazer SSH na VM da TPU quando o recurso enfileirado estiver no estado
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Quando o recurso em fila está no estado
ACTIVE
, a saída é semelhante a esta:state: ACTIVE
Instale o JAX e a biblioteca dele.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Faça o download do repositório e instale os requisitos.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='git clone https://github.com/RissyRan/diffusers.git && cd diffusers && pip install . && pip install -U -r examples/text_to_image/requirements_flax.txt && pip install tensorflow==2.17.1 clu && pip install tensorboard==2.17.1'
Treine o modelo
Treine o modelo com um buffer pré-mapeado de 4 GB.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} --zone=${ZONE} --project=${PROJECT_ID} --worker=all --command="
git clone https://github.com/google/maxdiffusion
cd maxdiffusion
pip3 install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
pip3 install -r requirements.txt
pip3 install .
pip3 install gcsfs
export LIBTPU_INIT_ARGS=''
python -m src.maxdiffusion.train src/maxdiffusion/configs/base_2_base.yml run_name=my_run \
jax_cache_dir=gs://${GCS_BUCKET_NAME} activations_dtype=bfloat16 weights_dtype=bfloat16 \
per_device_batch_size=1 precision=DEFAULT dataset_save_location=gs://${GCS_BUCKET_NAME} \
output_dir=gs://${GCS_BUCKET_NAME}/ attention=flash"
Limpar
Exclua a TPU, o recurso em fila e o bucket do Cloud Storage no final da sessão.
Exclua a TPU:
gcloud compute tpus tpu-vm delete ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --quiet
Exclua o recurso na fila:
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --quiet
Exclua o bucket do Cloud Storage:
gcloud storage rm -r gs://${GCS_BUCKET_NAME}
Resultados de comparação de mercado para difusão
O script de treinamento foi executado em v5litepod-4, v5litepod-16 e v5litepod-64. A tabela a seguir mostra as capacidades de processamento.
Tipo de acelerador | v5litepod-4 | v5litepod-16 | v5litepod-64 |
Etapa de treinamento | 1500 | 1500 | 1500 |
Tamanho global do lote | 32 | 64 | 128 |
Capacidade (exemplos/s) | 36,53 | 43,71 | 49,36 |
PyTorch/XLA
As seções a seguir descrevem exemplos de como treinar modelos PyTorch/XLA na TPU v5e.
Treinar o ResNet usando o ambiente de execução PJRT
O PyTorch/XLA está migrando do XRT para o PjRt do PyTorch 2.0+. Confira as instruções atualizadas para configurar a v5e para cargas de trabalho de treinamento do PyTorch/XLA.
Configurar
Crie variáveis de ambiente:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Você poderá fazer SSH na VM da TPU quando o QueuedResource estiver no estado
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Quando o recurso em fila está no estado
ACTIVE
, a saída é semelhante a esta:state: ACTIVE
Instalar dependências específicas do Torch/XLA
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' sudo apt-get update -y sudo apt-get install libomp5 -y pip3 install mkl mkl-include pip3 install tf-nightly tb-nightly tbp-nightly pip3 install numpy sudo apt-get install libopenblas-dev -y pip install torch==PYTORCH_VERSION torchvision torch_xla[tpu]==PYTORCH_VERSION -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html'
Substitua
PYTORCH_VERSION
pela versão do PyTorch que você quer usar.PYTORCH_VERSION
é usado para especificar a mesma versão para o PyTorch/XLA. A versão 2.6.0 é recomendada.Para mais informações sobre as versões do PyTorch e do PyTorch/XLA, consulte PyTorch: Introdução e Versões do PyTorch/XLA.
Para mais informações sobre a instalação do PyTorch/XLA, consulte Instalação do PyTorch/XLA.
Treinar o modelo ResNet
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
date
export PJRT_DEVICE=TPU
export PT_XLA_DEBUG=0
export USE_TORCH=ON
export XLA_USE_BF16=1
export LIBTPU_INIT_ARGS=--xla_jf_auto_cross_replica_sharding
export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
export TPU_LIBRARY_PATH=$HOME/.local/lib/python3.10/site-packages/libtpu/libtpu.so
git clone https://github.com/pytorch/xla.git
cd xla/
git checkout release-r2.6
python3 test/test_train_mp_imagenet.py --model=resnet50 --fake_data --num_epochs=1 —num_workers=16 --log_steps=300 --batch_size=64 --profile'
Excluir a TPU e o recurso na fila
Exclua a TPU e o recurso na fila no fim da sessão.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Resultado da comparação
A tabela a seguir mostra as capacidades de processamento do comparativo de mercado.
Tipo de acelerador | Capacidade (exemplos/segundo) |
v5litepod-4 | 4.240 ex/s |
v5litepod-16 | 10.810 ex/s |
v5litepod-64 | 46.154 ex/s |
Treinar ViT na v5e
Este tutorial vai abordar como executar o VIT na v5e usando o repositório do HuggingFace no PyTorch/XLA no conjunto de dados cifar10.
Configurar
Crie variáveis de ambiente:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Você poderá fazer SSH na VM da TPU quando o QueuedResource estiver no estado
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Quando o recurso em fila estiver no estado
ACTIVE
, a saída será semelhante a esta:state: ACTIVE
Instalar dependências do PyTorch/XLA
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' sudo apt-get update -y sudo apt-get install libomp5 -y pip3 install mkl mkl-include pip3 install tf-nightly tb-nightly tbp-nightly pip3 install numpy sudo apt-get install libopenblas-dev -y pip install torch==PYTORCH_VERSION torchvision torch_xla[tpu]==PYTORCH_VERSION -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html pip install jax==0.4.38 jaxlib==0.4.38 -f https://storage.googleapis.com/jax-releases/jax_nightly_releases.html -f https://storage.googleapis.com/jax-releases/jaxlib_nightly_releases.html'
Substitua
PYTORCH_VERSION
pela versão do PyTorch que você quer usar.PYTORCH_VERSION
é usado para especificar a mesma versão para o PyTorch/XLA. A versão 2.6.0 é recomendada.Para mais informações sobre as versões do PyTorch e do PyTorch/XLA, consulte PyTorch: Introdução e Versões do PyTorch/XLA.
Para mais informações sobre a instalação do PyTorch/XLA, consulte Instalação do PyTorch/XLA.
Faça o download do repositório do HuggingFace e instale os requisitos.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=" git clone https://github.com/suexu1025/transformers.git vittransformers; \ cd vittransformers; \ pip3 install .; \ pip3 install datasets; \ wget https://github.com/pytorch/xla/blob/master/scripts/capture_profile.py"
Treine o modelo
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
export PJRT_DEVICE=TPU
export PT_XLA_DEBUG=0
export USE_TORCH=ON
export TF_CPP_MIN_LOG_LEVEL=0
export XLA_USE_BF16=1
export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
export TPU_LIBRARY_PATH=$HOME/.local/lib/python3.10/site-packages/libtpu/libtpu.so
cd vittransformers
python3 -u examples/pytorch/xla_spawn.py --num_cores 4 examples/pytorch/image-pretraining/run_mae.py --dataset_name=cifar10 \
--remove_unused_columns=False \
--label_names=pixel_values \
--mask_ratio=0.75 \
--norm_pix_loss=True \
--do_train=true \
--do_eval=true \
--base_learning_rate=1.5e-4 \
--lr_scheduler_type=cosine \
--weight_decay=0.05 \
--num_train_epochs=3 \
--warmup_ratio=0.05 \
--per_device_train_batch_size=8 \
--per_device_eval_batch_size=8 \
--logging_strategy=steps \
--logging_steps=30 \
--evaluation_strategy=epoch \
--save_strategy=epoch \
--load_best_model_at_end=True \
--save_total_limit=3 \
--seed=1337 \
--output_dir=MAE \
--overwrite_output_dir=true \
--logging_dir=./tensorboard-metrics \
--tpu_metrics_debug=true'
Excluir a TPU e o recurso na fila
Exclua a TPU e o recurso na fila no fim da sessão.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Resultado da comparação
A tabela a seguir mostra as taxas de transferência de comparativos para diferentes tipos de acelerador.
v5litepod-4 | v5litepod-16 | v5litepod-64 | |
Período | 3 | 3 | 3 |
Tamanho global do lote | 32 | 128 | 512 |
Capacidade (exemplos/s) | 201 | 657 | 2.844 |