Esta página foi traduzida pela API Cloud Translation.

Executar uma pequena carga de trabalho em lote com GPUs e o modo de provisionamento flexível

Autopilot Standard

Neste guia, mostramos como otimizar o provisionamento de GPU para cargas de trabalho de treinamento de pequena e média escala usando o modo de provisionamento de início flexível. Neste guia, você usa flex-start para implantar uma carga de trabalho que consiste em dois jobs do Kubernetes. Cada job requer uma GPU. O GKE provisiona automaticamente um único nó com duas GPUs A100 para executar os dois jobs.

Se a carga de trabalho exigir processamento distribuído em vários nós, use o flex-start com provisionamento em fila. Para mais informações, consulte Executar uma carga de trabalho em grande escala com início flexível e provisionamento em fila.

Este guia é destinado a engenheiros de machine learning (ML), administradores e operadores de plataforma e especialistas em dados e IA interessados em usar os recursos de orquestração de contêineres do Kubernetes para executar cargas de trabalho em lote. Para mais informações sobre papéis comuns e tarefas de exemplo que mencionamos no conteúdo do Google Cloud , consulte Funções e tarefas de usuário comuns do GKE Enterprise.

Preços de início flexível

O início flexível é recomendado se a carga de trabalho exigir recursos provisionados dinamicamente conforme necessário, por até sete dias com reservas de curto prazo, sem gerenciamento complexo de cota e acesso econômico. O início flexível é alimentado pelo Programador dinâmico de cargas de trabalho e é faturado usando os preços do Programador dinâmico de cargas de trabalho:

Desconto de até 53% para vCPUs, GPUs e TPUs.
Você paga conforme a utilização.

Antes de começar

Antes de começar, veja se você realizou as seguintes tarefas:

Ative a API Google Kubernetes Engine.

Ativar a API Google Kubernetes Engine

Se você quiser usar a CLI do Google Cloud para essa tarefa, instale e, em seguida, inicialize a CLI gcloud. Se você instalou a gcloud CLI anteriormente, instale a versão mais recente executando gcloud components update.
Observação: para instalações atuais da gcloud CLI, defina as propriedades compute/region e compute/zone. Ao definir locais padrão, é possível evitar erros na CLI gcloud, como: One of [--zone, --region] must be supplied: Please specify location.

Verifique se você tem um cluster do Autopilot ou um cluster Standard que esteja executando a versão 1.33.0-gke.1712000 ou mais recente.
Confira se você conhece as limitações do flex-start.
Ao usar um cluster padrão, verifique se você mantém pelo menos um pool de nós sem o início flexível ativado para que o cluster funcione corretamente.
Verifique se você tem cota para GPUs preemptivas nos locais dos nós.

Criar um pool de nós com início flexível

Para criar um pool de nós com o início flexível ativado em um cluster Standard, use a CLI gcloud ou o Terraform.

Se você usar um cluster no modo Autopilot, pule esta seção e acesse a Executar uma carga de trabalho em lote.

gcloud

Crie um pool de nós com flex-start:
```
gcloud container node-pools create NODE_POOL_NAME \
    --cluster CLUSTER_NAME \
    --location LOCATION_NAME \
    --project PROJECT_ID \
    --accelerator type=nvidia-a100-80gb,count=2 \
    --machine-type a2-ultragpu-2g \
    --max-run-duration MAX_RUN_DURATION \
    --flex-start \
    --num-nodes 0 \
    --enable-autoscaling \
    --total-min-nodes 0 \
    --total-max-nodes 5 \
    --location-policy ANY \
    --reservation-affinity none \
    --no-enable-autorepair
```
Substitua:
- NODE_POOL_NAME: o nome escolhido para o pool de nós.
- LOCATION_NAME: a região de computação do plano de controle do cluster.
- PROJECT_ID: o ID do projeto.
- CLUSTER_NAME: o nome do cluster padrão que você quer modificar.
- MAX_RUN_DURATION: opcional. O tempo de execução máximo de um nó em segundos, até o padrão de sete dias.
Neste comando, a flag --flex-start instrui gcloud a criar um pool de nós com o início flexível ativado.

O GKE cria um pool de nós com nós que contêm duas GPUs A100 (a2-ultragpu-2g). Esse pool de nós escalona automaticamente os nós de zero a um máximo de cinco nós.

Verifique o status do flex-start no pool de nós:

gcloud container node-pools describe NODE_POOL_NAME \
    --cluster CLUSTER_NAME \
    --location LOCATION_NAME \
    --format="get(config.flexStart)"

Se o flex-start estiver ativado no pool de nós, o campo flexStart será definido como True.

Terraform

É possível usar o flex-start com GPUs usando um módulo do Terraform.

Adicione o seguinte bloco à configuração do Terraform:

```hcl
resource "google_container_node_pool" " "gpu_dws_pool" {
name = "gpu-dws-pool"

queued_provisioning {
    enabled = false
}

}
node_config {
    machine_type = "a3-highgpu-8g"
    flex_start = true
}
```

O Terraform chama APIs do Google Cloud para criar um cluster com um pool de nós que usa início flexível com GPUs. Inicialmente, o pool de nós não tem nós, e o escalonamento automático está ativado. Para saber mais sobre o Terraform, consulte as especificações de recursos do google_container_node_pool em terraform.io.

Executar uma carga de trabalho em lote

Nesta seção, você vai criar dois jobs do Kubernetes que exigem uma GPU cada. Um controlador de job no Kubernetes cria um ou mais pods e garante que eles executem uma tarefa específica com sucesso.

No Google Cloud console, inicie uma sessão do Cloud Shell clicando em Ativar o Cloud Shell. Uma sessão é aberta no painel inferior do console Google Cloud .

Crie um arquivo chamado dws-flex-start.yaml:

apiVersion: batch/v1
kind: Job
metadata:
  name: job-1
spec:
  template:
    spec:
      nodeSelector:
        cloud.google.com/gke-flex-start: "true"
      containers:
      - name: container-1
        image: gcr.io/k8s-staging-perf-tests/sleep:latest
        args: ["10s"] # Sleep for 10 seconds
        resources:
          requests:
              nvidia.com/gpu: 1
          limits:
              nvidia.com/gpu: 1
      restartPolicy: OnFailure
---
apiVersion: batch/v1
kind: Job
metadata:
  name: job-2
spec:
  template:
    spec:
      nodeSelector:
        cloud.google.com/gke-flex-start: "true"
      containers:
      - name: container-2
        image: gcr.io/k8s-staging-perf-tests/sleep:latest
        args: ["10s"] # Sleep for 10 seconds
        resources:
          requests:
              nvidia.com/gpu: 1
          limits:
              nvidia.com/gpu: 1
      restartPolicy: OnFailure

Aplique o manifesto dws-flex-start.yaml:
```
kubectl apply -f dws-flex-start.yaml
```

Verifique se os jobs estão sendo executados no mesmo nó:

kubectl get pods -l "job-name in (job-1,job-2)" -o wide

O resultado será assim:

NAME    READY   STATUS      RESTARTS   AGE   IP       NODE               NOMINATED NODE   READINESS GATES
job-1   0/1     Completed   0          19m   10.(...) gke-flex-zonal-a2  <none>           <none>
job-2   0/1     Completed   0          19m   10.(...) gke-flex-zonal-a2  <none>           <none>

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, exclua o projeto que contém os recursos ou mantenha o projeto e exclua os recursos individuais.

Excluir o projeto

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Excluir o recurso individual

Exclua os jobs:

kubectl delete job -l "job-name in (job-1,job-2)"

Exclua o pool de nós:

gcloud container node-pools delete NODE_POOL_NAME \
      --location LOCATION_NAME

Exclua o cluster:

gcloud container clusters delete CLUSTER_NAME

A seguir

Saiba mais sobre GPUs no GKE.
Saiba mais sobre o provisionamento automático de nós.
Saiba mais sobre as práticas recomendadas para executar cargas de trabalho em lote no GKE.