RUNNING
ou ERROR
.
A reinicialização de um recurso persistente permite que você se recupere de erros dos quais o recurso
permanente não consegue se recuperar por conta própria. Também é possível reinicializar um recurso permanente para receber manualmente clusters mais atualizados. Nesta página, mostramos como reinicializar um recurso permanente usando o console do Google Cloud e a API REST.
Funções exigidas
Para receber a permissão necessária a fim de reiniciar um recurso permanente,
peça ao administrador para conceder a você o
papel do IAM de Administrador da Vertex AI (roles/aiplatform.admin
) no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém a
permissão aiplatform.persistentResources.update
, que é
necessária para reiniciar um recurso permanente.
Também é possível conseguir essa permissão com papéis personalizados ou outros papéis predefinidos.
Reinicializar um recurso persistente
Selecione uma das guias a seguir para ver instruções sobre como reiniciar um recurso permanente. Confirme se não há jobs de treinamento em execução no recurso persistente.
Console
Para reinicializar um recurso permanente no console do Google Cloud, faça o seguinte:
No console do Google Cloud, acesse a página Recursos permanentes.
Ao lado do nome do recurso persistente que você quer reinicializar, clique nas reticências verticais (
).Clique em Reinicializar.
Clique em Confirmar.
gcloud
Antes de usar os dados do comando abaixo, faça estas substituições:
- PROJECT_ID: o ID do projeto do recurso permanente que você quer reiniciar.
- LOCATION: a região do recurso permanente que você quer reiniciar.
- PERSISTENT_RESOURCE_ID: o ID do recurso permanente que você quer reinicializar.
Execute o seguinte comando:
Linux, macOS ou Cloud Shell
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \ --project=PROJECT_ID \ --region=LOCATION
Windows (PowerShell)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ` --project=PROJECT_ID ` --region=LOCATION
Windows (cmd.exe)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^ --project=PROJECT_ID ^ --region=LOCATION
Você receberá uma resposta semelhante a esta
Using endpoint [https://us-central1-aiplatform.googleapis.com/] Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent. You may view the status of your persistent resource with the command $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource
REST
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- PROJECT_ID: o ID do projeto do recurso permanente que você quer reiniciar.
- LOCATION: a região do recurso permanente que você quer reiniciar.
- PERSISTENT_RESOURCE_ID: o ID do recurso permanente que você quer reinicializar.
Método HTTP e URL:
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
Reiniciar um recurso permanente é uma
operação de longa duração
em que não é possível excluir o recurso permanente. A operação contém um campo progressMessage
que é preenchido com um status de erro, se um deles ocorrer. Após
a operação indicar "done: true"
,
verifique o status
do recurso persistente. Se o recurso permanente estiver no estado RUNNING
, a reinicialização será bem-sucedida e está pronto para executar jobs de treinamento.
Limitações
Confira a seguir as limitações para reiniciar um recurso persistente:
- Em alguns casos, é possível perder a capacidade de recursos escassos ao reinicializar um recurso permanente. A retenção total de recursos não é garantida.
- A reinicialização não está disponível no Ray na Vertex AI.
- Os recursos permanentes que contêm pools de workers com escalonamento automático são reinicializados com a contagem mínima de réplicas.
A seguir
- Saiba mais sobre recursos persistentes.
- Crie e use um recurso permanente.
- Executar jobs de treinamento em um recurso persistente
- Receber informações sobre um recurso persistente.
- Exclua um recurso persistente.