Reinicia un recurso persistente

Puedes reiniciar cualquier recurso persistente que tenga el estado RUNNING o ERROR. Reiniciar un recurso persistente te permite recuperarte de errores de los que el recurso persistente no puede recuperarse por sí solo. También puedes reiniciar un recurso persistente para obtener de forma manual más clústeres actualizados. En esta página, se muestra cómo reiniciar un recurso persistente mediante la consola de Google Cloud y la API de REST.

Roles obligatorios

Para obtener el permiso que necesitas para reiniciar un recurso persistente, pídele a tu administrador que te otorgue el rol de IAM de administrador de Vertex AI (roles/aiplatform.admin) en tu proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene el permiso aiplatform.persistentResources.update, que se requiere para reiniciar un recurso persistente.

También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.

Reinicia un recurso persistente

Selecciona una de las siguientes pestañas para obtener instrucciones sobre cómo reiniciar un recurso persistente. Asegúrate de que no haya trabajos de entrenamiento en ejecución en el recurso persistente.

Console

Para reiniciar un recurso persistente en la consola de Google Cloud, haz lo siguiente:

  1. En la consola de Google Cloud, ve a la página Recursos persistentes.

    Ir a Recursos persistentes

  2. Junto al nombre del recurso persistente que deseas reiniciar, haz clic en los tres puntos verticales ().

  3. Haz clic en Reiniciar.

  4. Haz clic en Confirmar.

gcloud

Antes de usar cualquiera de los datos de comando a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID: el ID del proyecto del recurso persistente que deseas reiniciar.
  • LOCATION: la región del recurso persistente que deseas reiniciar.
  • PERSISTENT_RESOURCE_ID: el ID del recurso persistente que deseas reiniciar.

Ejecuta el siguiente comando:

Linux, macOS o Cloud Shell

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \
    --project=PROJECT_ID \
    --region=LOCATION

Windows (PowerShell)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID `
    --project=PROJECT_ID `
    --region=LOCATION

Windows (cmd.exe)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^
    --project=PROJECT_ID ^
    --region=LOCATION

Deberías recibir una respuesta similar a la que figura a continuación:

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent.

You may view the status of your persistent resource with the command

  $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID: el ID del proyecto del recurso persistente que deseas reiniciar.
  • LOCATION: la región del recurso persistente que deseas reiniciar.
  • PERSISTENT_RESOURCE_ID: el ID del recurso persistente que deseas reiniciar.

Método HTTP y URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Reiniciar un recurso persistente es una operación de larga duración, durante la cual el recurso persistente no se puede borrar. La operación contiene un campo progressMessage que se propaga con un estado de error, si se produce uno. Después de que la operación indique "done: true", verifica el estado del recurso persistente. Si el recurso persistente está en el estado RUNNING, el reinicio se realizó de forma correcta y está listo para ejecutar trabajos de entrenamiento.

Limitaciones

Las siguientes son limitaciones para reiniciar un recurso persistente:

  • En algunos casos, es posible perder la capacidad de los recursos pocos cuando se reinicia un recurso persistente. No se garantiza la retención completa de recursos.
  • El reinicio no está disponible en Ray en Vertex AI.
  • Los recursos persistentes que contienen grupos de trabajadores con ajuste de escala automático se reinician con el recuento mínimo de réplicas.

¿Qué sigue?