Esta página foi traduzida pela API Cloud Translation.

Acerca das instâncias de GPU

Este documento descreve as funcionalidades e as limitações das instâncias de máquinas virtuais (VM) com GPU que são executadas no Compute Engine.

Para acelerar cargas de trabalho específicas no Compute Engine, pode implementar uma instância otimizada para aceleradores com GPUs anexadas ou anexar GPUs a uma instância de uso geral N1. O Compute Engine fornece GPUs para as suas instâncias no modo de passagem. O modo de passagem permite que as suas instâncias tenham controlo direto sobre as GPUs e a respetiva memória.

Também pode usar alguns tipos de máquinas com GPU no hipercomputador de IA. O AI Hypercomputer é um sistema de supercomputação otimizado para suportar as suas cargas de trabalho de inteligência artificial (IA) e aprendizagem automática (AA). Esta opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para o desempenho que tenha integrações para o Google Kubernetes Engine (GKE) e os programadores do Slurm.

Tipos de máquinas suportados

O Compute Engine oferece diferentes tipos de máquinas para suportar as suas várias cargas de trabalho.

Alguns tipos de máquinas suportam as estações de trabalho virtuais (vWS) NVIDIA RTX. Quando cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença vWS. Para informações sobre os preços das estações de trabalho virtuais, consulte a página de preços de GPUs.

Tipos de máquinas com GPU
Cargas de trabalho de IA e ML	Gráficos e visualização	Outras cargas de trabalho da GPU
Os tipos de máquinas da série A otimizados para aceleradores foram concebidos para cargas de trabalho de computação de elevado desempenho (HPC), inteligência artificial (IA) e aprendizagem automática (ML). A série A de geração posterior é ideal para a pré-preparação e o ajuste fino de modelos de base que envolvem grandes clusters de aceleradores, enquanto a série A2 pode ser usada para preparar modelos mais pequenos e inferência de anfitrião único. Para estes tipos de máquinas, o modelo de GPU é anexado automaticamente à instância.	Os tipos de máquinas da série G otimizados para aceleradores foram concebidos para cargas de trabalho como cargas de trabalho de simulação do NVIDIA Omniverse, aplicações com utilização intensiva de gráficos, transcodificação de vídeo e computadores virtuais. Estes tipos de máquinas suportam as estações de trabalho virtuais (vWS) NVIDIA RTX. A série G também pode ser usada para preparar modelos mais pequenos e para a inferência de anfitrião único. Para estes tipos de máquinas, o modelo de GPU é anexado automaticamente à instância.	Para os tipos de máquinas de uso geral N1, exceto para o N1 shared-core (`f1-micro` e `g1-small`), pode anexar um conjunto selecionado de modelos de GPU. Alguns destes modelos de GPU também suportam estações de trabalho virtuais (vWS) NVIDIA RTX.
A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	Os seguintes modelos de GPU podem ser anexados a tipos de máquinas de utilização geral N1: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Tipos de máquinas com GPU

Cargas de trabalho de IA e ML Gráficos e visualização Outras cargas de trabalho da GPU

Os tipos de máquinas da série A otimizados para aceleradores foram concebidos para cargas de trabalho de computação de elevado desempenho (HPC), inteligência artificial (IA) e aprendizagem automática (ML).

A série A de geração posterior é ideal para a pré-preparação e o ajuste fino de modelos de base que envolvem grandes clusters de aceleradores, enquanto a série A2 pode ser usada para preparar modelos mais pequenos e inferência de anfitrião único.

Para estes tipos de máquinas, o modelo de GPU é anexado automaticamente à instância.

Os tipos de máquinas da série G otimizados para aceleradores foram concebidos para cargas de trabalho como cargas de trabalho de simulação do NVIDIA Omniverse, aplicações com utilização intensiva de gráficos, transcodificação de vídeo e computadores virtuais. Estes tipos de máquinas suportam as estações de trabalho virtuais (vWS) NVIDIA RTX.

A série G também pode ser usada para preparar modelos mais pequenos e para a inferência de anfitrião único.

Para estes tipos de máquinas, o modelo de GPU é anexado automaticamente à instância.

Para os tipos de máquinas de uso geral N1, exceto para o N1 shared-core (f1-micro e g1-small), pode anexar um conjunto selecionado de modelos de GPU. Alguns destes modelos de GPU também suportam estações de trabalho virtuais (vWS) NVIDIA RTX.

A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

Os seguintes modelos de GPU podem ser anexados a tipos de máquinas de utilização geral N1:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

GPUs em VMs do Spot

Pode adicionar GPUs às suas VMs de spot a preços de spot mais baixos para as GPUs. As GPUs anexadas a VMs de instância temporária funcionam como GPUs normais, mas persistem apenas durante a vida útil da VM. As VMs do Spot com GPUs seguem o mesmo processo de preemptividade que todas as VMs do Spot.

Considere pedir uma quota Preemptible GPUdedicada para usar para GPUs em VMs de instância temporária. Para mais informações, consulte o artigo Quotas para VMs Spot.

Durante os eventos de manutenção, as VMs de capacidade instantânea com GPUs são anuladas por predefinição e não podem ser reiniciadas automaticamente. Se quiser recriar as VMs depois de terem sido interrompidas, use um grupo de instâncias gerido. Os grupos de instâncias geridas recriam as instâncias de VM se os recursos de vCPU, memória e GPU estiverem disponíveis.

Se quiser um aviso antes da remoção das suas VMs ou quiser configurar as VMs para serem reiniciadas automaticamente após um evento de manutenção, use VMs padrão com uma GPU. Para VMs padrão com GPUs, o Compute Engine envia um aviso prévio de uma hora antes da preempção.

O Compute Engine não cobra pelas GPUs se as respetivas VMs forem interrompidas no primeiro minuto após o início da execução.

Para saber como criar VMs Spot com GPUs anexadas, leia os artigos Criar uma VM com GPUs anexadas e Criar VMs Spot. Por exemplo, consulte o artigo Crie uma instância A3 Ultra ou A4 com VMs de opção.

GPUs em instâncias com tempos de execução predefinidos

Normalmente, as instâncias que usam o modelo de aprovisionamento padrão não podem usar quotas de alocação preemptivas. As quotas preemptivas destinam-se a cargas de trabalho temporárias e estão normalmente mais disponíveis. Se o seu projeto não tiver uma quota preemptível e nunca a tiver pedido, todas as instâncias no seu projeto consomem quotas de alocação padrão.

Se pedir uma quota de alocação preemptível, as instâncias que usam o modelo de aprovisionamento padrão têm de cumprir todos os seguintes critérios para consumir a quota de alocação preemptível:

As instâncias têm GPUs anexadas.
As instâncias estão configuradas para serem eliminadas automaticamente após um tempo de execução predefinido através do campo maxRunDuration ou terminationTime. Para mais informações, consulte o seguinte:
- Limite o tempo de execução de uma instância
- Limite o tempo de execução das instâncias num MIG
A instância não tem autorização para consumir reservas. Para mais informações, consulte o artigo Impeça que as instâncias de computação consumam reservas.

Quando consome a atribuição preemptível para cargas de trabalho de GPU com limite de tempo, pode beneficiar do tempo de execução ininterrupto e da elevada obtenção da quota de atribuição preemptível. Para mais informações, consulte o artigo Quotas preemptíveis.

GPUs e Confidential VM

Pode usar uma GPU com uma instância de VM confidencial que usa o Intel TDX na série de máquinas A3. Para mais informações, consulte as configurações suportadas da VM confidencial. Para saber como criar uma instância de VM confidencial com GPUs, consulte o artigo Crie uma instância de VM confidencial com GPU.

GPUs e armazenamento em bloco

Quando cria uma instância com um tipo de máquina de GPU, pode adicionar armazenamento em blocos persistente ou temporário à instância. Para armazenar dados não transitórios, use armazenamento de blocos persistente, como o Hyperdisk ou o Persistent Disk , porque estes discos são independentes do ciclo de vida da instância. Os dados no armazenamento persistente podem ser retidos mesmo depois de eliminar a instância.

Para armazenamento temporário ou caches, use o armazenamento em blocos temporário adicionando discos SSD locais quando criar a instância.

Armazenamento de blocos persistente com volumes de discos persistentes e Hyperdisk

Pode anexar um disco persistente e selecionar volumes do Hyperdisk a instâncias com GPUs.

Para cargas de trabalho de aprendizagem automática (ML) e de publicação, use volumes de ML do Hyperdisk, que oferecem um elevado débito e tempos de carregamento de dados mais curtos. O Hyperdisk ML é uma opção mais económica para cargas de trabalho de ML porque oferece tempos de inatividade da GPU mais baixos.

Os volumes Hyperdisk ML oferecem suporte de multi-anexação só de leitura, pelo que pode anexar o mesmo disco a várias instâncias, dando a cada instância acesso aos mesmos dados.

Para mais informações acerca dos tipos de discos suportados para séries de máquinas que suportam GPUs, consulte as páginas das séries de máquinas N1 e otimizadas para aceleradores.

Discos SSD locais

Os discos SSD locais oferecem armazenamento rápido e temporário para colocação em cache, tratamento de dados ou outros dados transitórios. Os discos SSD locais oferecem armazenamento rápido porque estão fisicamente ligados ao servidor que aloja a sua instância. Os discos SSD locais oferecem armazenamento temporário porque a instância perde dados se for reiniciada.

Evite armazenar dados com requisitos de persistência fortes em discos SSD locais. Em alternativa, para armazenar dados não temporários, use o armazenamento persistente.

Se parar manualmente uma instância com uma GPU, pode preservar os dados do SSD local, com determinadas restrições. Consulte a documentação sobre o SSD local para ver mais detalhes.

Para ver o apoio técnico regional para SSD local com tipos de GPU, consulte o artigo Disponibilidade de SSD local por regiões e zonas de GPU.

GPUs e manutenção do anfitrião

O Compute Engine para sempre as instâncias com GPUs anexadas quando realiza eventos de manutenção no servidor anfitrião. Se a instância tiver discos SSD locais anexados, perde os dados do SSD local depois de parar.

Para obter informações sobre como processar eventos de manutenção, consulte o artigo Processamento de eventos de manutenção do anfitrião da GPU.

Reserve capacidade da GPU

As reservas oferecem uma elevada garantia de capacidade para recursos específicos da zona, incluindo GPUs. Pode usar as reservas para garantir que tem GPUs disponíveis quando precisa de as usar para aplicações com utilização intensiva do desempenho. Para conhecer os diferentes métodos de reserva de recursos específicos da zona no Compute Engine, consulte o artigo Escolha um tipo de reserva.

As reservas também são necessárias quando quer receber descontos por utilização garantida (CUDs) para as suas GPUs.

Preços das GPUs

Se pedir ao Compute Engine para aprovisionar GPUs através do modelo de aprovisionamento de spot, flex-start ou associado a reservas, recebe as GPUs a preços com desconto, consoante o tipo de GPU. Também pode receber descontos por utilização garantida ou descontos por utilização contínua (apenas com VMs N1) para a sua utilização de GPUs.

Para ver os preços por hora e mensais das GPUs, consulte a página de preços das GPUs.

Descontos de fidelidade para GPUs

Os compromissos baseados em recursos oferecem descontos significativos nos recursos do Compute Engine em troca de um compromisso de utilização dos recursos numa região específica durante, pelo menos, um ano. Normalmente, compra compromissos para recursos como vCPUs, memória, GPUs e discos SSD locais para utilização com uma série de máquinas específica. Quando usa os seus recursos, recebe a utilização de recursos elegíveis a preços com desconto. Para saber mais sobre estes descontos, consulte o artigo Descontos por utilização garantida baseados em recursos.

Para comprar um compromisso com GPUs, também tem de reservar as GPUs e anexar as reservas ao compromisso. Para mais informações sobre como anexar reservas a compromissos, consulte o artigo Anexe reservas a compromissos baseados em recursos.

Descontos por utilização sustentada para GPUs

As instâncias que usam tipos de máquinas N1 com GPUs anexadas recebem descontos de fidelidade (DFs), semelhantes aos vCPUs. Quando seleciona uma GPU para uma estação de trabalho virtual, o Compute Engine adiciona automaticamente uma licença da NVIDIA RTX Virtual Workstation à sua instância.

Restrições e limitações da GPU

Para instâncias com GPUs anexadas, aplicam-se as seguintes restrições e limitações:

Apenas os tipos de máquinas otimizados para aceleradores (A4X, A4, A3, A2, G4 e G2) e de uso geral N1 suportam GPUs.
Para proteger os sistemas e os utilizadores do Compute Engine, os novos projetos têm uma quota de GPU global que limita o número total de GPUs que pode criar em qualquer zona suportada. Quando pede uma quota de GPU, tem de pedir uma quota para os modelos de GPU que quer criar em cada região e uma quota global adicional para o número total de GPUs de todos os tipos em todas as zonas.
As instâncias com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que adicionar à instância. Para ver os intervalos de vCPU e memória disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.
As GPUs requerem controladores de dispositivo para funcionarem corretamente. As GPUs NVIDIA que são executadas no Compute Engine têm de usar uma versão mínima do controlador. Para mais informações sobre as versões dos controladores, consulte Versões dos controladores NVIDIA necessárias.
O ANS do Compute Engine abrange instâncias com um modelo de GPU anexado apenas se esse modelo de GPU anexado estiver geralmente disponível.

Para regiões com várias zonas, o SLA do Compute Engine abrange a instância apenas se o modelo de GPU estiver disponível em mais do que uma zona nessa região. Para ver os modelos de GPU por região, consulte o artigo Regiões e zonas de GPU.
O Compute Engine suporta um utilizador simultâneo por GPU.
Consulte também as limitações de cada tipo de máquina com GPUs anexadas.

O que se segue?

Saiba como criar instâncias com GPUs anexadas.
Saiba como adicionar ou remover GPUs.
Saiba como criar uma instância de VM confidencial com uma GPU anexada.