Esta página foi traduzida pela API Cloud Translation.

Opções de consumo da Cloud TPU

Este documento descreve as opções de consumo compatíveis com o Cloud TPU. As opções de consumo são os métodos usados para solicitar capacidade. Ao escolher uma opção de consumo, considere os seguintes fatores:

A rapidez com que você precisa da capacidade
Por quanto tempo você precisa da capacidade
Se você precisa da capacidade por um período fixo ou flexível
Se a capacidade pode ser interrompida
Preços

Se você estiver usando as APIs do Cloud TPU, para cada método de consumo, será necessário ter uma cota sob demanda ou preemptiva para o número de núcleos do Cloud TPU que você quer usar. Há cotas padrão diferentes sob demanda e preemptivas para cada versão de TPU. Para mais informações, consulte Cotas do Cloud TPU.

Se você estiver usando TPUs com o Google Kubernetes Engine (GKE), use a cota da API Compute Engine, que é diferente. Para mais informações sobre as cotas usadas para TPUs no GKE, consulte Verificar se você tem cota de TPU.

Opção de consumo	Como funciona	Melhor aplicação	Versões e zonas compatíveis da TPU	Tipo de cota para a API Cloud TPU
Reservas adiantadas de um ano ou mais	Você solicita recursos de TPU com antecedência por um ano ou mais. Esses recursos são reservados para seu uso exclusivo durante esse período. As reservas oferecem o mais alto nível de garantia de capacidade e são econômicas, com um preço menor do que os recursos sob demanda. As reservas futuras de TPUs têm um desconto por compromisso de uso (CUD) anexado. Os CUDs oferecem preços com desconto em troca da compra de um contrato de uso contínuo. Para mais informações, consulte Solicitar uma reserva futura por um ano ou mais.	As reservas futuras por um ano ou mais são ideais para jobs de treinamento de longa duração e cargas de trabalho de inferência.	Todas as versões de TPU: consulte Regiões e zonas de TPU.	Cota sob demanda
Reservas futuras de até 90 dias (no modo de agenda) (prévia)	Você solicita recursos de TPU para um horário de início e uma duração específicos, entre 1 e 90 dias. Esses recursos são reservados para seu uso exclusivo durante esse período. As reservas oferecem o mais alto nível de garantia de capacidade e são econômicas, com um preço menor do que os recursos sob demanda. Para mais informações, consulte Solicitar uma reserva adiantada de até 90 dias no modo de calendário.	As reservas futuras no modo de calendário são adequadas para cargas de trabalho de treinamento e experimentação que exigem horários de início precisos e têm uma duração definida.	v6e (Trillium) para treinamento e veiculação: asia-northeast1-b, us-east5-a v5p para treinamento e disponibilização: us-east5-a v5e para treinamento: us-west4-a v5e para veiculação: us-central1-a	Nenhuma cota necessária
Sob demanda	Você solicita recursos de TPU para serem usados o mais rápido possível e pelo tempo que quiser. A opção sob demanda oferece a maior flexibilidade. Os recursos sob demanda não serão interrompidos, mas não há garantia de que haverá recursos de TPU disponíveis suficientes para atender à sua solicitação. Sob demanda é a opção padrão ao criar recursos de TPU. Para mais informações sobre como criar e usar TPUs sob demanda, consulte Gerenciar recursos de TPU.	O modelo on demand é adequado para jobs urgentes e cargas de trabalho que exigem um horário de término flexível.	Todas as versões de TPU: consulte Regiões e zonas de TPU.	Cota sob demanda
Flex-start (Prévia)	Você solicita recursos de TPU por um período específico, até 7 dias, sem precisar reservar capacidade com antecedência. As VMs de início flexível da TPU são fornecidas de um pool dedicado de capacidade. Por isso, a disponibilidade desses recursos é maior do que a de recursos sob demanda. Para mais informações sobre como usar VMs de TPU Flex-start, consulte Solicitar VMs de TPU Flex-start. Para mais informações sobre como usar VMs de TPU de início flexível com o Google Kubernetes Engine (GKE), consulte Sobre o provisionamento de GPU e TPU com o modo de provisionamento de início flexível.	O início flexível é ideal para experimentos, testes em pequena escala, provisionamento dinâmico de TPUs para cargas de trabalho de inferência, ajuste fino de modelos e execuções de carga de trabalho que levam menos de 7 dias.	v6e (Trillium): asia-northeast1-b, us-east5-a v5p: us-east5-a v5e: us-west4-a	Cota preemptiva
Spot	Você solicita recursos de TPU que podem ser preemptivos. As VMs spot estão disponíveis a um preço muito mais baixo do que os recursos sob demanda. As VMs spot podem ser mais fáceis de conseguir do que os recursos on demand, mas podem ser interrompidas (encerradas) a qualquer momento. Não há limite para a duração do tempo de execução. Para mais informações sobre VMs spot de TPU, consulte Gerenciar VMs spot de TPU.	O Spot é adequado para programar cargas de trabalho de baixa prioridade, como pré-treinamento e ajuste fino de modelos, além de jobs de simulação tolerantes a interrupções de disponibilidade.	Todas as versões de TPU: consulte Regiões e zonas de TPU.	Cota preemptiva

A seguir

Comece a usar as TPUs com: