Esta página foi traduzida pela API Cloud Translation.

Usar reservas com treinamento

Neste documento, explicamos como usar as reservas do Compute Engine para garantir que seus jobs de treinamento personalizados tenham os recursos de máquina virtual (VM) necessários para serem executados.

As reservas são um recurso do Compute Engine. Elas ajudam a garantir que você tenha os recursos disponíveis para criar VMs com o mesmo hardware (memória e vCPUs) e recursos opcionais (CPUs, GPUs, TPUs e discos SSD locais) sempre que precisar.

Ao criar uma reserva, o Compute Engine verifica se a capacidade solicitada está disponível na zona especificada. Se sim, o Compute Engine reserva os recursos, cria a reserva e acontece o seguinte:

Você pode consumir os recursos reservados imediatamente, e eles permanecem disponíveis até que você exclua a reserva.
Você recebe cobranças pelos recursos reservados com a mesma taxa sob demanda das VMs em execução, incluindo descontos aplicáveis, até que a reserva seja excluída. Uma VM que consome uma reserva não gera cobranças separadas. Você só recebe cobranças pelos recursos fora da reserva, como discos ou endereços IP. Para saber mais, consulte preços das reservas.

Limitações e requisitos

Ao usar reservas do Compute Engine com a Vertex AI, considere as seguintes limitações e requisitos:

A Vertex AI só pode usar reservas para CPUs, VMs de GPU ou TPUs (pré-lançamento).
A Vertex AI não pode consumir reservas de VMs que têm discos SSD locais anexados manualmente.
O uso de reservas do Compute Engine com a Vertex AI só é compatível com treinamento e inferência personalizados e com o Vertex AI Workbench (em prévia).
As propriedades de VM de uma reserva precisam corresponder exatamente à sua carga de trabalho da Vertex AI para consumir a reserva. Por exemplo, se uma reserva especificar um tipo de máquina a2-ultragpu-8g, a carga de trabalho da Vertex AI só poderá consumir a reserva se também usar um tipo de máquina a2-ultragpu-8g. Consulte Requisitos.
Para consumir uma reserva compartilhada de VMs de GPU ou TPUs, use o projeto proprietário ou um projeto consumidor com que a reserva é compartilhada. Consulte Como funcionam as reservas compartilhadas.
Para oferecer suporte a atualizações regulares das implantações da Vertex AI, recomendamos aumentar a contagem de VMs em pelo menos uma VM adicional para cada implantação simultânea.
O início flexível para o Dynamic Workload Scheduler e execução de jobs de treinamento em um recurso persistente são compatíveis, exceto ao usar reservas do Compute Engine com o treinamento da Vertex AI.

Faturamento

Ao usar reservas do Compute Engine, você recebe cobranças pelos seguintes itens:

Preços dos recursos do Compute Engine, incluindo descontos por compromisso de uso (CUDs) aplicáveis. Consulte Preços do Compute Engine.
Taxas de gerenciamento de treinamento personalizado da Vertex AI, além do uso da infraestrutura. Consulte os preços dos modelos treinados de maneira personalizada.

Antes de começar

Revise os requisitos e restrições para reservas.
Revise os requisitos de cota e as restrições para reservas compartilhadas.

Permitir que uma reserva seja consumida

Antes de consumir uma reserva de CPUs, VMs de GPU ou TPUs, defina a política de compartilhamento para permitir que a Vertex AI consuma a reserva. Para fazer isso, use um dos seguintes métodos:

Permitir o consumo ao criar uma reserva
Permitir o consumo em uma reserva atual

Permitir o consumo ao criar uma reserva

Ao criar uma reserva de projeto único ou compartilhada de VMs de GPU, é possível permitir que a Vertex AI consuma a reserva da seguinte maneira:

Se você estiver usando o Google Cloud console, na seção Serviços do Google Cloud, selecione Compartilhar reserva.
Se você estiver usando a Google Cloud CLI, inclua a flag --reservation-sharing-policy definida como ALLOW_ALL.
Se você estiver usando a API REST, inclua no corpo da solicitação o campo serviceShareType definido como ALLOW_ALL.

Permitir o consumo em uma reserva atual

Só é possível modificar uma reserva criada automaticamente de VMs de GPU ou TPUs para uma reserva adiantada após o horário de início da reserva.

Para permitir que a Vertex AI consuma uma reserva, use um dos seguintes métodos:

Verificar se uma reserva foi consumida

Para verificar se a reserva está sendo consumida, consulte Verificar o consumo de reservas na documentação do Compute Engine.

Criar um job de treinamento personalizado com uma reserva

Use a API REST para criar um trabalho de treinamento personalizado que consuma uma reserva do Compute Engine de VMs de GPU.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: a região em que o contêiner ou o pacote Python será executado.
PROJECT_ID: o projeto em que a reserva foi criada. Para consumir uma reserva compartilhada de outro projeto, você precisa compartilhar a reserva com ele. Para mais informações, consulte Modificar os projetos do consumidor em uma reserva compartilhada.
JOB_NAME: obrigatório. Um nome de exibição para CustomJob.
MACHINE_TYPE: o tipo de máquina a ser usado para o job. A configuração padrão é n1-standard-2. Para mais informações sobre os tipos de máquinas compatíveis, consulte Configurar recursos de computação para treinamento personalizado.
ACCELERATOR_TYPE: o tipo de acelerador a ser anexado à máquina. Para mais informações sobre o tipo de GPU compatível com cada tipo de máquina, consulte GPUs para cargas de trabalho de computação.
ACCELERATOR_COUNT: o número de aceleradores a serem anexados à máquina.
Defina o job de treinamento personalizado:
- RESERVATION_AFFINITY_TYPE: precisa ser ANY, SPECIFIC_RESERVATION ou NONE.
  - ANY significa que as VMs do seu customJob podem consumir automaticamente qualquer reserva com propriedades correspondentes.
  - SPECIFIC_RESERVATION significa que as VMs do seu customJob só podem consumir uma reserva que as VMs segmentam especificamente pelo nome.
  - NONE significa que as VMs do seu customJob não podem consumir nenhuma reserva. Especificar NONE tem o mesmo efeito que omitir uma especificação de afinidade de reserva.
- ZONE: a zona em que a reserva foi criada.
- RESERVATION_NAME: o nome da sua reserva.
- DISK_TYPE: opcional. O tipo de disco de inicialização a ser usado para o job, pd-standard (padrão) ou pd-ssd. Saiba mais sobre tipos de disco.
- DISK_SIZE: opcional. O tamanho em GB do disco de inicialização a ser usado para o job. O valor padrão é 100.
- REPLICA_COUNT: o número de réplicas de worker a serem usadas. Na maioria dos casos, defina esse valor como 1 para o primeiro pool de workers.
- Se o aplicativo de treinamento for executado em um contêiner personalizado, especifique o seguinte:
  - CUSTOM_CONTAINER_IMAGE_URI: o URI de uma imagem de contêiner no Artifact Registry ou do Docker Hub a ser executado em cada réplica de worker.
  - CUSTOM_CONTAINER_COMMAND: opcional. O comando que será invocado quando o contêiner for iniciado. Esse comando substitui o ponto de entrada padrão do contêiner.
  - CUSTOM_CONTAINER_ARGS: opcional. Argumentos a serem passados ao iniciar o contêiner.
- Se o aplicativo de treinamento for um pacote Python executado em um contêiner pré-criado, especifique o seguinte:
  - EXECUTOR_IMAGE_URI: o URI da imagem do contêiner que executa o código fornecido; Consulte os contêineres pré-criados disponíveis para treinamento.
  - PYTHON_PACKAGE_URIS: lista separada por vírgulas de URIs do Cloud Storage que especificam os arquivos de pacote do Python que são o programa de treinamento e os pacotes dependentes. O número máximo de URIs de pacote é 100.
  - PYTHON_MODULE: o nome do módulo Python que será executado após a instalação dos pacotes.
  - PYTHON_PACKAGE_ARGS: opcional. Argumentos da linha de comando a serem passados para o módulo Python.
- TIMEOUT: opcional. O tempo máximo de execução do job.
Especifique LABEL_NAME e LABEL_VALUE para todos os rótulos que você quiser aplicar a esse job personalizado.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs

Corpo JSON da solicitação:

{
  "displayName": "JOB_NAME",
  "jobSpec": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "MACHINE_TYPE",
          "acceleratorType": "ACCELERATOR_TYPE",
          "acceleratorCount": ACCELERATOR_COUNT,
          "reservationAffinity": {
            "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
            "key": "compute.googleapis.com/reservation-name",
            "values": [
              "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"
            ]
          },
        },
        "replicaCount": REPLICA_COUNT,
        "diskSpec": {
          "bootDiskType": DISK_TYPE,
          "bootDiskSizeGb": DISK_SIZE
        },

        // Union field task can be only one of the following:
        "containerSpec": {
          "imageUri": CUSTOM_CONTAINER_IMAGE_URI,
          "command": [
            CUSTOM_CONTAINER_COMMAND
          ],
          "args": [
            CUSTOM_CONTAINER_ARGS
          ]
        },
        "pythonPackageSpec": {
          "executorImageUri": EXECUTOR_IMAGE_URI,
          "packageUris": [
            PYTHON_PACKAGE_URIS
          ],
          "pythonModule": PYTHON_MODULE,
          "args": [
            PYTHON_PACKAGE_ARGS
          ]
        }
        // End of list of possible types for union field task.
      }
      // Specify one workerPoolSpec for single replica training, or multiple workerPoolSpecs
      // for distributed training.
    ],
    "scheduling": {
      "timeout": TIMEOUT
    }
  },
  "labels": {
    LABEL_NAME_1": LABEL_VALUE_1,
    LABEL_NAME_2": LABEL_VALUE_2
  }
}

Para enviar a solicitação, escolha uma destas opções:

curl

Observação: o comando a seguir pressupõe que você tenha feito login na gcloud CLI com sua conta de usuário executando gcloud init ou gcloud auth login ou usando o Cloud Shell, que faz login automaticamente na gcloud CLI. Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs"

PowerShell

Observação: o comando a seguir pressupõe que você fez login na gcloud CLI com sua conta de usuário executando gcloud init ou gcloud auth login. Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs" | Select-Object -Expand Content

A resposta contém informações sobre especificações, bem como o TRAININGPIPELINE_ID.

Resposta

{
  "name": "projects/PROJECT_ID/locations/LOCATION/customJobs/JOB_ID",
  "displayName": "JOB_NAME",
  "trainingTaskInputs": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "MACHINE_TYPE",
          "acceleratorType": "ACCELERATOR_TYPE",
          "acceleratorCount": ACCELERATOR_COUNT
        },
        "replicaCount": "1",
        "pythonPackageSpec": {
          "executorImageUri": "us-docker.pkg.dev/vertex-ai/training/training-tf-cpu.2-1:latest",
          "packageUris": [
            "gs://BUCKET_NAME/training/hello-custom-training-1.0.tar.gz"
          ],
          "pythonModule": "trainer.task",
          "args": [
            "--model-dir=gs://BUCKET_NAME/output/"
          ]
        }
      }
    ]
  },
  "state": "JOB_STATE_PENDING",
  "createTime": "2020-09-15T19:09:54.342080Z",
  "startTime": "2020-09-15T19:13:42.991045Z",
}

A seguir

Saiba mais sobre reservas de recursos zonais do Compute Engine.
Saiba como usar reservas com a inferência on-line da Vertex AI.
Saiba como usar reservas com a inferência em lote da Vertex AI.
Saiba como conferir reservas.
Saiba como monitorar o consumo das reservas.

Usar reservas com treinamento Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Limitações e requisitos

Faturamento

Antes de começar

Permitir que uma reserva seja consumida

Permitir o consumo ao criar uma reserva

Permitir o consumo em uma reserva atual

Verificar se uma reserva foi consumida

Criar um job de treinamento personalizado com uma reserva

REST

curl

PowerShell

Resposta

A seguir

Usar reservas com treinamento