Opções de consumo da Cloud TPU
Este documento descreve as opções de consumo compatíveis com o Cloud TPU. As opções de consumo são os métodos usados para solicitar capacidade. Ao escolher uma opção de consumo, considere os seguintes fatores:
- A rapidez com que você precisa da capacidade
- Por quanto tempo você precisa da capacidade
- Se você precisa de capacidade por um período fixo ou flexível
- Se a capacidade pode ser interrompida
- Preços
Se você estiver usando as APIs do Cloud TPU, para cada método de consumo, é necessário ter uma cota sob demanda ou preemptível para o número de núcleos do Cloud TPU que você quer usar. Há diferentes cotas padrão sob demanda e preemptivas para cada versão de TPU. Para mais informações, consulte Cotas do Cloud TPU.
Se você estiver usando TPUs com o Google Kubernetes Engine (GKE), use a cota da API Compute Engine, que é diferente. Para mais informações sobre as cotas que você usa para TPUs no GKE, consulte Garantir que você tem cota de TPU.
Opção de consumo | Como funciona | Melhor aplicação | Zonas e versões da TPU com suporte | Tipo de cota para a API Cloud TPU |
---|---|---|---|---|
Reservas de longo prazo | Você solicita recursos de TPU com antecedência por um ano ou mais. Esses recursos são reservados para seu uso exclusivo durante esse período. As reservas oferecem o maior nível de garantia de capacidade e são econômicas, com um preço mais baixo do que os recursos sob demanda. As reservas de TPU de longo prazo têm um desconto por compromisso de uso (CUD) anexado. Os CUDs oferecem preços com desconto em troca da compra de um contrato de uso contínuo. Para mais informações, consulte Solicitar uma reserva de longo prazo. |
As reservas de longo prazo são ideais para jobs de treinamento de longa duração e cargas de trabalho de inferência. | Todas as versões de TPU: consulte Regiões e zonas de TPU. | Cota sob demanda |
Reservas de curto prazo (reservas futuras no modo de agenda) (pré-lançamento) | Você solicita recursos do TPU para um horário de início e duração específicos, entre 1 e 90 dias. Esses recursos são reservados para seu uso exclusivo durante esse período. As reservas oferecem o maior nível de garantia de capacidade e são econômicas, com um preço mais baixo do que os recursos sob demanda. Para mais informações, consulte Solicitar uma reserva de curto prazo usando o modo de calendário. |
As reservas de curto prazo são uma boa opção para cargas de trabalho de treinamento e experimentação que exigem horários de início precisos e têm uma duração definida. | v6e (Trillium) para treinamento e veiculação: asia-northeast1-b, us-east5-a v5p para treinamento e disponibilização: us-east5-a v5e para treinamento: us-west4-a v5e para veiculação: us-central1-a |
Nenhuma cota necessária |
Sob demanda | Você solicita que os recursos de TPU sejam usados o mais rápido possível e por quanto tempo quiser. O sob demanda oferece a maior flexibilidade. Os recursos sob demanda não serão antecipados, mas não há garantia de que haverá recursos de TPU suficientes para atender à solicitação. Sob demanda é o padrão ao criar recursos de TPU. Para mais informações sobre como criar e usar TPUs sob demanda, consulte Gerenciar recursos de TPU. |
O modo "On demand" é adequado para jobs urgentes e cargas de trabalho que exigem um horário de término flexível. | Todas as versões de TPU: consulte Regiões e zonas de TPU. | Cota sob demanda |
Flex-start (pré-lançamento) | Você solicita recursos do TPU por um período específico, até sete dias, sem precisar reservar capacidade com antecedência. Os recursos de início flexível são entregues de um conjunto dedicado de capacidade. Portanto, a disponibilidade desses recursos é maior do que os recursos sob demanda. Para mais informações sobre o uso do Flex-start com TPUs, consulte Solicitar Cloud TPUs usando o Flex-start. Observação: o início flexível para TPUs só tem suporte usando a API Cloud TPU. Não é possível usar a API GKE. |
O início flexível é ideal para experimentos, testes em pequena escala, provisionamento dinâmico de TPUs para cargas de trabalho de inferência, ajuste fino de modelos e execuções de carga de trabalho que levam menos de sete dias. |
v6e (Trillium) para treinamento e veiculação: asia-northeast1-b, us-east5-a v5e para treinamento: us-west4-a v5e para veiculação: us-central1-a |
Cota preemptiva |
Spot | Você solicita recursos de TPU que podem ser interrompidos. As VMs spot estão disponíveis a um preço muito mais baixo do que os recursos sob demanda. As VMs spot podem ser mais fáceis de conseguir do que os recursos sob demanda, mas podem ser interrompidas (encerradas) a qualquer momento. Não há limite na duração da execução. Para mais informações sobre as VMs spot de TPU, consulte Gerenciar VMs spot de TPU. |
O spot é uma boa opção para programar cargas de trabalho de prioridade mais baixa, como pré-treinamento de modelo, ajuste fino de modelo e jobs de simulação que toleram interrupções de disponibilidade. | Todas as versões de TPU: consulte Regiões e zonas de TPU. | Cota preemptiva |
A seguir
Comece a usar as TPUs com: