Esta página foi traduzida pela API Cloud Translation.

Como treinar o ResNet no Cloud TPU (TF 2.x)

Veja neste tutorial como treinar um modelo Keras ResNet na Cloud TPU usando tf.distribute.TPUStrategy.

Se você não estiver familiarizado com o Cloud TPU, é altamente recomendável consulte o guia de início rápido para seu framework para aprender a criar uma TPU e uma VM do Compute Engine.

Objetivos

Criar um bucket do Cloud Storage para armazenar o conjunto de dados e a saída do modelo.
Preparar um conjunto de dados ImageNet fictício que seja semelhante ao conjunto de dados do ImageNet.
Executar o job de treinamento.
Verificar os resultados da saída.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Compute Engine
Cloud TPU
Cloud Storage

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Antes de começar o tutorial, verifique se o projeto do Google Cloud foi configurado corretamente.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Este tutorial usa componentes faturáveis do Google Cloud. Consulte a página de preços da Cloud TPU para fazer uma estimativa dos custos. Para evitar cobranças desnecessárias, não se esqueça de apagar os recursos criados ao terminar de usá-los.

Treinamento de dispositivo único do Cloud TPU

Nesta seção, você verá informações sobre como configurar recursos de bucket, VM e Cloud TPU do Cloud Storage para treinamento em dispositivos únicos.

Abra uma janela do Cloud Shell.

Abrir o Cloud Shell
Crie uma variável para o ID do seu projeto.
```
$ export PROJECT_ID=project-id
```
Configurar a Google Cloud CLI para usar o projeto em que você quer criar Cloud TPU:
```
$ gcloud config set project ${PROJECT_ID}
```
Na primeira vez que você executar esse comando em uma nova VM do Cloud Shell, será exibida uma página Authorize Cloud Shell. Clique em Authorize na parte de baixo. da página para permitir que gcloud faça chamadas de API com suas credenciais.
Crie uma conta de serviço para o projeto da Cloud TPU.

As contas de serviço permitem que o serviço do Cloud TPU acesse outros Google Cloud serviços.
```
$ gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
O comando retorna uma conta de serviço do Cloud TPU com o seguinte formato:
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
Crie um bucket do Cloud Storage usando o seguinte comando:
```
$ gcloud storage buckets create gs://bucket-name --project=${PROJECT_ID} --location=us-central2
```
Esse bucket do Cloud Storage armazena os dados usados para treinar o modelo e os resultados do treinamento. O comando gcloud usado neste tutorial para configurar a TPU também configura permissões padrão para a conta de serviço do Cloud TPU configurada na etapa anterior. Caso queira permissões mais específicas, consulte as permissões de nível de acesso.
Preparar o conjunto de dados ou usar fake_imagenet

O ImageNet é um banco de dados de imagens. As imagens no banco de dados são organizadas uma hierarquia, com cada nó da hierarquia representado por centenas e milhares de imagens.

Neste tutorial, usamos uma versão de demonstração do conjunto de dados completo do ImageNet, conhecido como fake_imagenet. Essa versão de demonstração permite testar enquanto reduz os requisitos de tempo e armazenamento normalmente associadas à execução de um modelo no banco de dados completo do ImageNet.

O conjunto de dados do fake_imagenet está neste local no Cloud Storage:
```
gs://cloud-tpu-test-datasets/fake_imagenet
```
O conjunto de dados do fake_imagenet é útil apenas para entender como usar um Cloud TPU e validar o desempenho de ponta a ponta. A precisão e o modelo salvo não serão relevantes.

Se você quiser usar o conjunto de dados completo do ImageNet, consulte Como fazer o download, pré-processamento e upload do conjunto de dados do ImageNet.

Cuidado: para este tutorial, não defina a variável de ambiente STORAGE_BUCKET como o caminho do conjunto de dados fake_imagenet. É possível fazer leituras a partir de gs://cloud-tpu-test-datasets, mas não fazer gravações nele. Sendo assim, não é possível usá-lo para gravar registros de treinamento. Confira se STORAGE_BUCKET variável de ambiente esteja definida para seu próprio bucket do Cloud Storage.
Inicie os recursos de TPU usando o comando gcloud. O comando usado depende se você usa VMs ou nós de TPU. Para mais informações sobre a arquitetura de duas VMs, consulte Arquitetura do sistema.

Observação :o treinamento de exemplo a seguir usa a biblioteca de modelagem do TF-Vision para visão computacional. Confira o arquivo README para mais informações sobre a biblioteca de modelos do TF-Vision.
```
$ gcloud compute tpus tpu-vm create resnet-tutorial \
  --zone=us-central2-b \
  --accelerator-type=v4-8 \
  --version=tpu-vm-tf-2.17.0-pjrt
```
Descrições de sinalizações de comando

zone

A zona em que você planeja criar a Cloud TPU.

accelerator-type

O tipo de acelerador especifica a versão e o tamanho do Cloud TPU que você quer criar. Para mais informações sobre os tipos de aceleradores compatíveis com cada versão de TPU, consulte versões de TPU.

version

A versão do software do Cloud TPU.

Para mais informações sobre o comando gcloud, consulte a Referência da gcloud.

Observação: na primeira vez que você executar gcloud compute tpus tpu-vm em um projeto, leva cerca de 5 minutos para executar tarefas de inicialização, como propagação de chave SSH e ativação de API.
Conecte-se à instância de VM da TPU usando SSH. Quando você se conectar à VM, o prompt do shell vai mudar de username@projectname para username@vm-name:
```
gcloud compute tpus tpu-vm ssh resnet-tutorial --zone=us-central2-b
```
Importante: a partir deste ponto, o prefixo (vm) $ significa que você deve executar o comando na instância de VM do Compute Engine.
Defina a variável de nome da Cloud TPU.
```
(vm)$ export TPU_NAME=local
```
Definir variáveis de bucket do Cloud Storage

Configure as seguintes variáveis de ambiente, substituindo bucket-name pelo nome do bucket do Cloud Storage:
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
```
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/resnet-2x
(vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
```
O aplicativo de treinamento precisa que os dados de treinamento sejam acessíveis no Cloud Storage. Ele também usa o bucket do Cloud Storage para armazenar checkpoints durante o treinamento.
Ao criar sua TPU, se você definir o parâmetro --version como uma versão que termina com -pjrt, defina as seguintes variáveis de ambiente para ativar o ambiente de execução PJRT:
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```

Instale os requisitos do TensorFlow.

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

O script de treinamento do ResNet requer um pacote extra. Instalar agora.
```
(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3
```

Mude para o diretório que armazena o modelo:

(vm)$ cd /usr/share/tpu/tensorflow/resnet50_keras

Defina a variável de ambiente PYTHONPATH:

(vm)$ /usr/share/tpu/tensorflow/resnet50_keras"

Execute o script de treinamento. Ela usa um conjunto de dados fake_imagenet e treina o ResNet de 100 passos.
```
(vm)$ resnet50.py --tpu=local --data=gs://cloud-tpu-test-datasets/fake_imagenet
```
Descrições de sinalizações de comando

tpu

O nome da TPU.

data

Especifica o diretório em que os checkpoints e resumos são armazenados durante treinamento de modelo. Se a pasta não existir, o programa criará um. Ao usar um Cloud TPU, o model_dir precisa ser um caminho do Cloud Storage (gs://...). Você pode reutilizar uma pasta existente para carregar os dados do checkpoint atual e armazenar pontos de verificação adicionais desde que os anteriores tenham sido criados usando TPUs do mesmo tamanho e com a mesma versão do TensorFlow.

Isso treinará o ResNet por 100 etapas e será concluído em um nó de TPU v3-8 aproximadamente 3 minutos. Ao final das 100 etapas, a saída será semelhante ao aparece:

I0624 17:04:26.974905 140457742666816 controller.py:290]  eval | step:    100 | eval time:   23.3 sec | output:
    {'accuracy': 0.0010141226,
     'top_5_accuracy': 0.0051457332,
     'validation_loss': 8.448798}
 eval | step:    100 | eval time:   23.3 sec | output:
    {'accuracy': 0.0010141226,
     'top_5_accuracy': 0.0051457332,
     'validation_loss': 8.448798}

Você concluiu o exemplo de treinamento de dispositivo único. Siga as etapas abaixo para excluir os recursos atuais da TPU de dispositivo único.

Desconecte-se da instância do Compute Engine:
```
(vm)$ exit
```
Agora, o prompt será username@projectname, mostrando que você está no Cloud Shell.
Exclua o recurso da TPU.
```
$ gcloud compute tpus tpu-vm delete resnet-tutorial \
  --zone=us-central2-b
```
Descrições de sinalizações de comando

zone

A zona onde o Cloud TPU residia.

Como escalonar o modelo com os pods da Cloud TPU

O treinamento do modelo em pods da Cloud TPU pode exigir algumas alterações para seu script de treinamento. Para mais informações, consulte Treinamento em pods de TPU.

Treinamento do pod de TPU

Nesta seção, você encontra informações sobre como configurar um bucket do Cloud Storage e Recursos do Cloud TPU para treinamento de pods.

Configurar

Abra uma janela do Cloud Shell.

Abrir o Cloud Shell
Crie uma variável para o ID do seu projeto.
```
export PROJECT_ID=project-id
```
Configurar a CLI do Google Cloud para usar o projeto em que você quer criar Cloud TPU:
```
gcloud config set project ${PROJECT_ID}
```
Na primeira vez que você executar esse comando em uma nova VM do Cloud Shell, será exibida uma página Authorize Cloud Shell. Clique em Authorize na parte de baixo. da página para permitir que gcloud faça chamadas de API do Google Cloud com suas credenciais.

Crie uma conta de serviço para o projeto da Cloud TPU.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

O comando retorna uma conta de serviço do Cloud TPU com o seguinte formato:

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Crie um bucket do Cloud Storage usando o comando a seguir ou use um bucket criado anteriormente para o projeto:
```
gcloud storage buckets create gs://bucket-name --project=${PROJECT_ID} --location=us-central2
```
Esse bucket do Cloud Storage armazena os dados usados para treinar o modelo e os resultados do treinamento. O comando gcloud usado neste tutorial configura permissões padrão para a conta de serviço do Cloud TPU configurada na etapa anterior. Caso queira permissões mais específicas, consulte as permissões de nível de acesso.

O local do bucket precisa estar na mesma região que sua VM da TPU.
Preparar o conjunto de dados ou usar fake_imagenet

O ImageNet é um banco de dados de imagens. As imagens do banco de dados são organizadas hierarquicamente, com cada nó da hierarquia representado por centenas e milhares de imagens.

O treinamento padrão do pod acessa uma versão de demonstração do ImageNet conhecido como fake_imagenet. Essa versão de demonstração permite testar o treinamento do pod, reduzindo os requisitos de tempo e armazenamento normalmente associadas ao treinamento de um modelo com o banco de dados completo do ImageNet.

O conjunto de dados do fake_imagenet é útil apenas para entender como usar um Cloud TPU e validar o desempenho de ponta a ponta. A precisão e o modelo salvo não serão relevantes.

Se você quiser usar o conjunto de dados completo do ImageNet, consulte Como fazer o download, pré-processamento e upload do conjunto de dados do ImageNet.

Cuidado: não defina o ambiente STORAGE_BUCKET. variável para o caminho do conjunto de dados fake_imagenet. Você pode ler a partir do, gs://cloud-tpu-test-datasets mas não fazer gravações nele. Sendo assim, não é possível usá-lo para gravar registros de treinamento. Certifique-se de que a variável de ambiente STORAGE_BUCKET esteja definida como seu próprio bucket do Cloud Storage.

Criar recursos do Cloud TPU

Inicie os recursos do Cloud TPU usando o comando gcloud.

Neste tutorial, especificamos um pod v3-32. Para outras opções de Pod, consulte Versões de TPU.

Observação: se não houver capacidade suficiente disponível no momento para criar o pod de TPU, será possível enfileirar sua solicitação usando recursos na fila. Recursos na fila permitem que você receba a capacidade quando ela for disponibilizado. Para solicitar os recursos do Cloud TPU como recursos na fila, use o gcloud compute tpus queued-resources create. Para mais informações, consulte Gerenciar recursos na fila.
```
$ gcloud compute tpus tpu-vm create resnet-tutorial \
  --zone=us-central2-b \
  --accelerator-type=4-32 \
  --version=tpu-vm-tf-2.17.0-pod-pjrt
```
Descrições de sinalizações de comando

zone

A zona em que você planeja criar a Cloud TPU.

accelerator-type

O tipo de acelerador especifica a versão e o tamanho do Cloud TPU que você quer criar. Para mais informações sobre os tipos de aceleradores compatíveis com cada versão de TPU, consulte versões de TPU.

version

A versão do software do Cloud TPU.

Observação: na primeira vez que você executar gcloud em um projeto, leva cerca de 5 minutos para executar tarefas de inicialização, como propagação de chave SSH e API aumento de volume.
Conecte-se à instância de VM da TPU usando SSH. Quando você se conectar à VM, o prompt do shell vai mudar de username@projectname para username@vm-name:
```
gcloud compute tpus tpu-vm ssh resnet-tutorial --zone=us-central2-b
```
Importante: a partir deste ponto, o prefixo (vm) $ significa que você deve e executar o comando na instância da VM do Compute Engine. começa com (vm)$ na janela de sessão da VM.

Exporte as variáveis de configuração do Cloud TPU:

(vm)$ export ZONE=us-central2-b
(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export TPU_NAME=resnet-tutorial
(vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/resnet-2x-pod

O aplicativo de treinamento precisa que os dados de treinamento sejam acessíveis no Cloud Storage. Ele também usa o bucket do Cloud Storage para armazenar checkpoints durante o treinamento.

O script de treinamento do ResNet requer um pacote extra. Instalar agora.
```
(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3 
```

Instale os requisitos do TensorFlow. {: id='setup-env'}:

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Defina a variável de ambiente PYTHONPATH:

(vm)$ export PYTHONPATH="PYTHONPATH=/usr/share/tpu/tensorflow/resnet50_keras"
(vm)$ export TPU_LOAD_LIBRARY=0

Mude para o diretório que armazena o modelo:

(vm)$ cd /usr/share/tpu/tensorflow/resnet50_keras

Treine o modelo.
```
(vm)$ resnet50.py --tpu=${TPU_NAME} --data=gs://cloud-tpu-test-datasets/fake_imagenet
```
Descrições de sinalizações de comando

tpu

O nome da TPU.

data

Especifica o diretório em que os checkpoints e os resumos são armazenados durante o treinamento de modelo. Se a pasta não existir, o programa criará uma. Ao usar um Cloud TPU, o model_dir precisa ser um caminho do Cloud Storage (gs://...). É possível reutilizar um pasta existente para carregar os dados do checkpoint e armazenar mais pontos de verificação, contanto que os anteriores tenham sido criados usando Cloud TPU do mesmo tamanho e com a mesma versão do TensorFlow.

Este procedimento treina o modelo no conjunto de dados fake_imagenet até 100 e 13 etapas de avaliação. Esse treinamento leva aproximadamente 2 minutos em um Cloud TPU v3-32 Quando o treinamento e a avaliação forem concluídos, mensagens semelhantes às seguintes aparecem:

{'accuracy': 0.0009716797,
     'learning_rate': 0.10256411,
     'top_5_accuracy': 0.0049560545,
     'training_loss': 8.5587225}
train | step:    100 | steps/sec:    1.2 | output:
    {'accuracy': 0.0009716797,
     'learning_rate': 0.10256411,
     'top_5_accuracy': 0.0049560545,
     'training_loss': 8.5587225}

eval | step:    100 | eval time:   24.8 sec | output:
    {'accuracy': 0.0010141226,
     'top_5_accuracy': 0.004356971,
     'validation_loss': 8.50038}
 eval | step:    100 | eval time:   24.8 sec | output:
    {'accuracy': 0.0010141226,
     'top_5_accuracy': 0.004356971,
     'validation_loss': 8.50038}

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Desconecte-se da instância do Compute Engine, caso ainda não tenha feito isso:
```
(vm)$ exit
```
Agora, o prompt será username@projectname, mostrando que você está no Cloud Shell.

Exclua os recursos do Cloud TPU e do Compute Engine.

$ gcloud compute tpus tpu-vm delete resnet-tutorial \
  --zone=us-central2-b

Execute gcloud compute tpus tpu-vm list para verificar se os recursos foram excluídos. A exclusão pode levar vários minutos. A saída do comando a seguir não deve incluir nenhum dos recursos de TPU criados neste tutorial:
```
$ gcloud compute tpus tpu-vm list --zone=us-central2-b
```
Exclua o bucket do Cloud Storage criado para este tutorial:
```
$ gcloud storage rm gs://bucket-name --recursive
```

A seguir

Geralmente, os tutoriais do Cloud TPU do TensorFlow treinam o modelo usando um conjunto de dados de amostra. Os resultados desse treinamento não são utilizáveis para inferência. Para um modelo para inferência, é possível treinar os dados em uma conjunto de dados ou seu próprio conjunto de dados. Modelos do TensorFlow treinados em Cloud TPUs geralmente exigem que os conjuntos de dados estejam TFRecord.

Você pode usar a ferramenta de conversão do conjunto de dados sample para converter uma imagem conjunto de dados de classificação no formato TFRecord. Se você não estiver usando uma imagem modelo de classificação, você terá que converter seu conjunto de dados para Formato do TFRecord você mesmo. Para mais informações, consulte TFRecord e tf.Example

Ajuste de hiperparâmetros

Para melhorar o desempenho do modelo com o conjunto de dados, é possível ajustar a e ajustar os hiperparâmetros. É possível encontrar informações sobre hiperparâmetros comuns a todos Modelos com suporte a TPU em GitHub. As informações sobre hiperparâmetros específicos do modelo podem ser encontradas na fonte para cada um modelo de machine learning. Para mais informações sobre o ajuste de hiperparâmetros, consulte a Visão geral do ajuste de hiperparâmetros e Ajuste e ajustar os hiperparâmetros.

Inferência

Depois de treinar o modelo, você pode usá-lo para inferência (também chamado de previsão). Use o conversor de inferência do Cloud TPU ferramenta para preparar e otimizar Modelo do TensorFlow para inferência no Cloud TPU v5e. Para mais informações sobre inferência no Cloud TPU v5e, consulte Inferência do Cloud TPU v5e introdução.

Saiba como treinar e avaliar usando seus dados no lugar dos conjuntos de dados false_imagenet ou ImageNet seguindo o tutorial de conversão do conjunto de dados. O tutorial explica como usar o conversor de dados de classificação de imagens exemplo de script para converter um conjunto de dados bruto para classificação de imagem em TFRecords utilizáveis por modelos do TensorFlow do Cloud TPU.
Execute um Colab do Cloud TPU que demonstra como executar um modelo de classificação de imagens usando seu próprio dados de imagem.
Explore os outros tutoriais da Cloud TPU.
Aprenda a usar as ferramentas de monitoramento de TPU no TensorBoard.
Veja como treinar o ResNet com Cloud TPU e GKE.

Como treinar o ResNet no Cloud TPU (TF 2.x)

Objetivos

Custos

Antes de começar

Treinamento de dispositivo único do Cloud TPU

Descrições de sinalizações de comando

Descrições de sinalizações de comando

Descrições de sinalizações de comando

Como escalonar o modelo com os pods da Cloud TPU

Treinamento do pod de TPU

Configurar

Criar recursos do Cloud TPU

Descrições de sinalizações de comando

Descrições de sinalizações de comando

Limpar

A seguir

Ajuste de hiperparâmetros

Inferência