Reinicializar um recurso persistente

É possível reinicializar qualquer recurso permanente que esteja no estado RUNNING ou ERROR. A reinicialização de um recurso persistente permite que você se recupere de erros dos quais o recurso permanente não consegue se recuperar por conta própria. Também é possível reinicializar um recurso permanente para receber manualmente clusters mais atualizados. Nesta página, mostramos como reinicializar um recurso permanente usando o console do Google Cloud e a API REST.

Funções exigidas

Para receber a permissão necessária a fim de reiniciar um recurso permanente, peça ao administrador para conceder a você o papel do IAM de Administrador da Vertex AI (roles/aiplatform.admin) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém a permissão aiplatform.persistentResources.update, que é necessária para reiniciar um recurso permanente.

Também é possível conseguir essa permissão com papéis personalizados ou outros papéis predefinidos.

Reinicializar um recurso persistente

Selecione uma das guias a seguir para ver instruções sobre como reiniciar um recurso permanente. Confirme se não há jobs de treinamento em execução no recurso persistente.

Console

Para reinicializar um recurso permanente no console do Google Cloud, faça o seguinte:

  1. No console do Google Cloud, acesse a página Recursos permanentes.

    Acessar recursos permanentes

  2. Ao lado do nome do recurso persistente que você quer reinicializar, clique nas reticências verticais ().

  3. Clique em Reinicializar.

  4. Clique em Confirmar.

gcloud

Antes de usar os dados do comando abaixo, faça estas substituições:

  • PROJECT_ID: o ID do projeto do recurso permanente que você quer reiniciar.
  • LOCATION: a região do recurso permanente que você quer reiniciar.
  • PERSISTENT_RESOURCE_ID: o ID do recurso permanente que você quer reinicializar.

Execute o seguinte comando:

Linux, macOS ou Cloud Shell

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \
    --project=PROJECT_ID \
    --region=LOCATION

Windows (PowerShell)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID `
    --project=PROJECT_ID `
    --region=LOCATION

Windows (cmd.exe)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^
    --project=PROJECT_ID ^
    --region=LOCATION

Você receberá uma resposta semelhante a esta

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent.

You may view the status of your persistent resource with the command

  $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID: o ID do projeto do recurso permanente que você quer reiniciar.
  • LOCATION: a região do recurso permanente que você quer reiniciar.
  • PERSISTENT_RESOURCE_ID: o ID do recurso permanente que você quer reinicializar.

Método HTTP e URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Reiniciar um recurso permanente é uma operação de longa duração em que não é possível excluir o recurso permanente. A operação contém um campo progressMessage que é preenchido com um status de erro, se um deles ocorrer. Após a operação indicar "done: true", verifique o status do recurso persistente. Se o recurso permanente estiver no estado RUNNING, a reinicialização será bem-sucedida e está pronto para executar jobs de treinamento.

Limitações

Confira a seguir as limitações para reiniciar um recurso persistente:

  • Em alguns casos, é possível perder a capacidade de recursos escassos ao reinicializar um recurso permanente. A retenção total de recursos não é garantida.
  • A reinicialização não está disponível no Ray na Vertex AI.
  • Os recursos permanentes que contêm pools de workers com escalonamento automático são reinicializados com a contagem mínima de réplicas.

A seguir