Sobre as solicitações de reserva adiantada no modo de calendário


Este documento oferece uma visão geral das solicitações de reserva adiantada no modo de calendário. Para saber mais sobre as diferentes maneiras de reservar recursos no Compute Engine, consulte Escolher um tipo de reserva.

Para conseguir capacidade de criar instâncias de máquina virtual (VM) com GPUs ou TPUs anexadas, use solicitações de reserva adiantada no modo de calendário. Se Google Cloudaprovar sua solicitação, o Compute Engine vai provisionar os recursos reservados na data e hora escolhidas e pelo período selecionado. Em seguida, use os recursos reservados para criar VMs de GPU ou TPU e executar as seguintes cargas de trabalho:

  • Jobs de pré-treinamento de modelo

  • Jobs de ajuste de modelo

  • Cargas de trabalho de simulação de computação de alto desempenho (HPC)

  • Aumentos esperados de curto prazo nas cargas de trabalho de inferência

Criar uma solicitação no modo de calendário

As seções a seguir explicam como conferir a disponibilidade de recursos e quais detalhes especificar ao criar uma solicitação de reserva adiantada no modo de calendário.

Ver a disponibilidade futura de recursos

Antes de criar uma solicitação de reserva adiantada no modo de calendário, é possível conferir a disponibilidade futura em uma região dos seguintes recursos:

  • Para VMs de GPU, até 60 dias de antecedência

  • Para TPUs, até 120 dias de antecedência

O Compute Engine usa o Programador dinâmico de cargas de trabalho (DWS) para mostrar quando os recursos solicitados estão disponíveis. Ao criar uma solicitação, especifique o número, o tipo e o período de reserva dos recursos que você confirmou como disponíveis. Google Cloud tem mais chances de aprovar sua solicitação se você fornecer essas informações.

Definir propriedades de solicitação

Ao criar uma solicitação de reserva adiantada no modo de agenda, você precisa especificar as seguintes propriedades:

  • Exclusão automática. Essa propriedade determina se o Compute Engine exclui a reserva criada automaticamente (criada automaticamente) para sua solicitação no horário de término, mesmo que a reserva não seja totalmente consumida. Para criar uma solicitação no modo de calendário, ative a opção de exclusão automática.

  • Tipo de consumo. Essa propriedade define como as VMs consomem a reserva criada automaticamente. Ao criar uma solicitação no modo de calendário, especifique que você quer criar reservas especificamente segmentadas. Essa configuração significa que apenas as VMs que segmentam a reserva podem consumi-la.

  • Tipo de implantação. Essa propriedade define a colocação dos recursos reservados. Ao criar uma solicitação no modo de calendário, especifique para implantar recursos de forma densa. Nesse tipo de implantação, os recursos ficam localizados próximos uns dos outros para minimizar a latência da rede.

  • Nome. O nome da sua solicitação, que precisa ser exclusivo no projeto.

  • Número de recursos. O número de VMs de GPU ou TPUs a serem reservadas no horário de início solicitado.

  • Status de planejamento. Essa propriedade define se você envia imediatamente sua solicitação para Google Cloud para revisão ou se salva como rascunho e envia depois. Ao criar um pedido no modo de calendário, especifique que ele seja enviado imediatamente para revisão.

  • Modo de reserva. Essa propriedade define o método para reservar recursos, que precisa ser definido como CALENDAR para uma solicitação no modo de calendário.

  • Nome da reserva. O nome da reserva que o Compute Engine cria automaticamente se Google Cloud aprovar sua solicitação.

  • Tipo de compartilhamento. Essa propriedade define se outros projetos na sua organização podem consumir a reserva criada automaticamente para sua solicitação aprovada. Você pode especificar uma das seguintes opções:

    • Projeto único. Somente seu projeto pode consumir a capacidade reservada.

    • Compartilhado. É possível compartilhar a capacidade reservada com até 100 outros projetos na sua organização. Se você especificar essa opção, precisará especificar os projetos com que compartilhar a reserva criada automaticamente. Para mais informações, consulte as práticas recomendadas para reservas compartilhadas.

  • Período de reserva. A data e a hora em que o Compute Engine provisiona a capacidade solicitada, e você pode consumi-la. O período de reserva inclui o seguinte:

    • Horário de início. Quando você quiser começar a consumir a capacidade reservada. Com base nos recursos que você reserva, o horário de início precisa ser pelo menos um dos seguintes valores a partir do momento em que você cria e envia uma solicitação:

      • Para VMs de GPU, 87 horas (três dias e 15 horas)

      • Para TPUs, 24 horas

    • Horário de término. Quando a capacidade solicitada não estiver mais reservada para você. Nesse momento, o Compute Engine exclui a reserva criada automaticamente e interrompe ou exclui as VMs que consomem a reserva com base na ação de encerramento especificada para as VMs.

  • Propriedades do recurso. Os requisitos de hardware das VMs com GPU ou TPUs que você quer reservar. As VMs só podem usar uma reserva se as propriedades delas corresponderem às propriedades da reserva. Para mais informações, consulte os requisitos para consumir reservas.

  • Tipo de carga de trabalho. Se você reservar TPU v5e, especifique como reservar capacidade com base no tipo de carga de trabalho:

    • Lote: Para cargas de trabalho que processam grandes quantidades de dados em uma ou várias operações, como cargas de trabalho de treinamento de machine learning (ML).

    • Veiculação. Para cargas de trabalho que processam solicitações simultâneas e exigem latência de rede mínima, como cargas de trabalho de inferência de ML.

  • Zona. A zona em que você quer reservar capacidade.

Processo de solicitação de análise

Para reservar capacidade usando uma solicitação de reserva adiantada no modo de calendário, você precisa criar e enviar a solicitação para Google Cloud para análise. Depois que você criar e enviar uma solicitação, o Google Cloud vai analisá-la em um minuto e uma das seguintes situações vai acontecer:

  • Google Cloud aprova sua solicitação: o Compute Engine reserva os recursos solicitados e, em um minuto após a aprovação, cria automaticamente uma reserva vazia. No horário de início do pedido, o Compute Engine provisiona a capacidade solicitada aumentando o número de TPUs na reserva.

  • Você encontra um erro. A solicitação falha porque a zona dela não tem recursos suficientes. Recomendamos que você verifique novamente a disponibilidade de recursos futuros e crie e envie uma nova solicitação de análise.

Ciclo de vida da solicitação

O diagrama a seguir mostra os diferentes estados que o Compute Engine pode definir para uma solicitação de reserva adiantada no modo de calendário:

Um fluxograma mostrando os diferentes estados que uma solicitação de reserva adiantada no modo de calendário pode passar.

Os estados e o fluxo de eventos mostrados no diagrama anterior são os seguintes:

  • PENDING_APPROVAL: você criou e enviou um pedido de análise. Em um minuto, Google Cloud aprova a solicitação.

  • APPROVED: Google Cloud aprovou sua solicitação. Em seguida, em um minuto, o Compute Engine cria automaticamente uma reserva vazia e muda o estado da solicitação para PROCURING.

  • PROCURING: o Compute Engine programa o provisionamento dos recursos reservados. Antes do horário de início, o estado da solicitação muda para PROVISIONING.

  • PROVISIONING: o Compute Engine está provisionando seus recursos reservados aumentando o número de TPUs reservadas na reserva criada automaticamente. No horário de início da solicitação, o estado muda para FULFILLED.

  • FULFILLED: o Compute Engine provisionou seus recursos reservados, e você recebe cobranças por eles. É possível consumir a reserva criada automaticamente criando VMs até o horário de término da solicitação.

No horário de término da solicitação, o Compute Engine exclui a solicitação e a reserva criada automaticamente. Ele também interrompe ou exclui as VMs que consomem a reserva com base na ação de encerramento especificada para as VMs.

Consumir capacidade provisionada

Depois que Google Cloud aprova uma solicitação de reserva adiantada no modo de calendário, o Compute Engine cria automaticamente uma reserva com as seguintes características:

  • A reserva criada automaticamente não tem VMs de GPU ou TPUs reservadas. Portanto, ainda não é possível consumi-la.

  • A reserva criada automaticamente herda as propriedades de VM ou TPU especificadas na sua solicitação.

No horário de início da solicitação, o Compute Engine provisiona a capacidade solicitada aumentando o número de VMs com GPU ou TPUs na reserva criada automaticamente. Em seguida, é possível consumir a reserva criando VMs de GPU ou TPU que atendam a todas as seguintes condições:

É possível criar VMs até que a reserva seja totalmente consumida ou até o horário de término da solicitação. No horário de término da solicitação, o Compute Engine exclui a reserva criada automaticamente e interrompe ou exclui todas as VMs que consomem a reserva.

Cota

As solicitações de reserva adiantada no modo de calendário precisam usar o modelo de provisionamento vinculado à reserva. Esse modelo não exige cota do Compute Engine para reservar recursos. No entanto, antes de criar uma solicitação, verifique se você tem cota suficiente para todos os recursos que não fazem parte de uma reserva ao criar VMs, como discos ou endereços IP.

Preços

Quando você cria uma solicitação de reserva adiantada no modo de calendário, não há cobrança. Em vez disso, você recebe cobranças quando o seguinte ocorre:

  • O Compute Engine provisiona a capacidade solicitada. Quando uma solicitação atinge o estado FULFILLED, você recebe uma cobrança pelos recursos provisionados de acordo com os preços do DWS. Esse modelo de preços oferece vCPUs, GPUs e TPUs a um preço com desconto.

  • Você usa recursos não cobertos pela reserva. Ao criar VMs que consomem uma reserva criada automaticamente, você não recebe uma nova cobrança pelos recursos consumidos. Você só vai receber cobranças por recursos que não fazem parte da reserva, como discos ou endereços IP.

Você para de receber cobranças no horário de término da solicitação. Nesse momento, o Compute Engine exclui a reserva criada automaticamente e interrompe ou exclui as VMs que consomem a reserva.

Limitações

As seções a seguir explicam as limitações das solicitações de reserva adiantada no modo de calendário.

Limitações para todas as solicitações

Todas as solicitações de reserva adiantada no modo de calendário têm as seguintes limitações:

  • É possível reservar recursos por um período entre 1 e 90 dias.

  • Depois de criar e enviar uma solicitação, não é possível cancelar, excluir ou modificar o pedido.

Limitações para solicitações de VMs de GPU

Só é possível reservar VMs de GPU da seguinte maneira:

  • É possível reservar entre 1 e 80 VMs de GPU por solicitação.

  • É possível reservar as seguintes séries de máquinas:

  • É possível reservar VMs com GPU apenas em zonas específicas.

Limitações para solicitações de TPUs

Só é possível reservar TPUs da seguinte maneira:

  • É possível reservar 1, 4, 8, 16, 32, 64, 128, 256, 512 ou 1.024 chips de TPU por solicitação.

  • É possível reservar as seguintes versões de TPU:

  • Só é possível reservar 1, 4 ou 8 chips de TPU v5e para veiculação de tipos de carga de trabalho (SERVING).

  • Só é possível reservar TPUs nas seguintes zonas:

    • Para a TPU v6e:

      • asia-northeast1-b

      • us-east5-a

      • us-east5-b

    • Para TPU v5p:

      • us-east5-a
    • Para a TPU v5e:

      • Para tipos de carga de trabalho em lote (BATCH): us-west4-b

      • Para tipos de carga de trabalho de veiculação (SERVING): us-central1-a

Limitações para todas as reservas criadas automaticamente

Uma reserva criada automaticamente para uma solicitação tem as seguintes limitações:

  • Só é possível modificar a reserva da seguinte maneira:

    • Para permitir ou não que jobs da Vertex AI a consumam.

    • Depois do horário de início da reserva.

  • Não é possível aplicar descontos por compromisso de uso (CUDs) ou descontos por uso prolongado (SUDs) à reserva.

  • Não é possível excluir a reserva. O Compute Engine a exclui no horário de término.

A seguir