Opções de consumo da Cloud TPU
Este documento descreve as opções de consumo compatíveis com o Cloud TPU. As opções de consumo são os métodos usados para solicitar capacidade. Ao escolher uma opção de consumo, considere os seguintes fatores:
- A rapidez com que você precisa da capacidade
- Por quanto tempo você precisa da capacidade
- Se você precisa da capacidade por um período fixo ou flexível
- Se a capacidade pode ser interrompida
- Preços
Se você estiver usando as APIs do Cloud TPU, para cada método de consumo, será necessário ter uma cota sob demanda ou preemptiva para o número de núcleos do Cloud TPU que você quer usar. Há cotas padrão sob demanda e preemptivas diferentes para cada versão de TPU. Para mais informações, consulte Cotas do Cloud TPU.
Se você estiver usando TPUs com o Google Kubernetes Engine (GKE), use a cota da API Compute Engine, que é diferente. Para mais informações sobre as cotas usadas para TPUs no GKE, consulte Verificar se você tem cota de TPU.
Opção de consumo | Como funciona | Melhor aplicação | Versões e zonas compatíveis da TPU | Tipo de cota para a API Cloud TPU |
---|---|---|---|---|
Reservas de longa duração | Você solicita recursos de TPU com antecedência por um ano ou mais. Esses recursos são reservados para seu uso exclusivo durante esse período. As reservas oferecem o mais alto nível de garantia de capacidade e são econômicas, com um preço menor do que os recursos sob demanda. As reservas de TPU de longo prazo têm um desconto por compromisso de uso (CUD) anexado. Os CUDs oferecem preços com desconto em troca da compra de um contrato de uso contínuo. Para mais informações, consulte Solicitar uma reserva de longo prazo. |
As reservas de longo prazo são ideais para jobs de treinamento de longa duração e cargas de trabalho de inferência. | Todas as versões de TPU: consulte Regiões e zonas de TPU. | Cota sob demanda |
Reservas de curto prazo (reservas futuras no modo de calendário) (prévia) | Você solicita recursos de TPU para um horário de início e uma duração específicos, entre 1 e 90 dias. Esses recursos são reservados para seu uso exclusivo durante esse período. As reservas oferecem o mais alto nível de garantia de capacidade e são econômicas, com um preço menor do que os recursos sob demanda. Para mais informações, consulte Solicitar uma reserva de curto prazo usando o modo de calendário. |
As reservas de curto prazo são adequadas para cargas de trabalho de treinamento e experimentação que exigem horários de início precisos e têm uma duração definida. | v6e (Trillium) para treinamento e veiculação: asia-northeast1-b, us-east5-a v5p para treinamento e disponibilização: us-east5-a v5e para treinamento: us-west4-a v5e para veiculação: us-central1-a |
Nenhuma cota necessária |
Sob demanda | Você solicita recursos de TPU para serem usados o mais rápido possível e pelo tempo que quiser. A opção sob demanda oferece a maior flexibilidade. Os recursos sob demanda não serão interrompidos, mas não há garantia de que haverá recursos de TPU disponíveis suficientes para atender à sua solicitação. Sob demanda é a opção padrão ao criar recursos de TPU. Para mais informações sobre como criar e usar TPUs sob demanda, consulte Gerenciar recursos de TPU. |
O modelo on demand é adequado para jobs urgentes e cargas de trabalho que exigem um horário de término flexível. | Todas as versões de TPU: consulte Regiões e zonas de TPU. | Cota sob demanda |
Flex-start (Prévia) | Você solicita recursos de TPU por um período específico, até 7 dias, sem precisar reservar capacidade com antecedência. Os recursos de início flexível são fornecidos de um pool dedicado de capacidade. Por isso, a disponibilidade deles é maior do que a dos recursos sob demanda. Para mais informações sobre como usar o Flex-start com TPUs, consulte Solicitar Cloud TPUs usando o Flex-start. Para mais informações sobre como usar o início flexível com o Google Kubernetes Engine (GKE), consulte Sobre o provisionamento de GPU e TPU com o modo de provisionamento de início flexível. |
O início flexível é ideal para experimentos, testes em pequena escala, provisionamento dinâmico de TPUs para cargas de trabalho de inferência, ajuste fino de modelos e execuções de carga de trabalho que levam menos de 7 dias. |
v6e (Trillium): asia-northeast1-b, us-east5-a v5p: us-east5-a v5e: us-west4-a |
Cota preemptiva |
Spot | Você solicita recursos de TPU que podem ser preemptivos. As VMs spot estão disponíveis a um preço muito mais baixo do que os recursos sob demanda. As VMs spot podem ser mais fáceis de conseguir do que os recursos on demand, mas podem ser interrompidas (encerradas) a qualquer momento. Não há limite para a duração do tempo de execução. Para mais informações sobre VMs spot de TPU, consulte Gerenciar VMs spot de TPU. |
O Spot é adequado para programar cargas de trabalho de baixa prioridade, como pré-treinamento e ajuste fino de modelos, além de jobs de simulação tolerantes a interrupções de disponibilidade. | Todas as versões de TPU: consulte Regiões e zonas de TPU. | Cota preemptiva |
A seguir
Comece a usar as TPUs com: