Monitorizar el estado

Las instancias de Vertex AI Workbench ofrecen varios métodos para monitorizar el estado de tus cuadernos. En esta página se describe cómo usar cada método.

Métodos para monitorizar el estado de salud

Puedes monitorizar el estado de tus instancias de Vertex AI Workbench de varias formas. En esta página se describe cómo usar los siguientes métodos:

Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. Install the Google Cloud CLI.

  6. Si utilizas un proveedor de identidades (IdP) externo, primero debes iniciar sesión en la CLI de gcloud con tu identidad federada.

  7. Para inicializar gcloud CLI, ejecuta el siguiente comando:

    gcloud init
  8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  9. Verify that billing is enabled for your Google Cloud project.

  10. Enable the Notebooks API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  11. Install the Google Cloud CLI.

  12. Si utilizas un proveedor de identidades (IdP) externo, primero debes iniciar sesión en la CLI de gcloud con tu identidad federada.

  13. Para inicializar gcloud CLI, ejecuta el siguiente comando:

    gcloud init
  14. Usar atributos de invitado para informar sobre el estado del sistema

    Puedes usar atributos de invitado para informar sobre el estado del sistema de los siguientes servicios principales:

    • Servicio Docker
    • Agente de proxy inverso de Docker
    • Servicio de Jupyter
    • API de Jupyter

    Los atributos de invitado son un tipo específico de metadatos personalizados que las aplicaciones pueden escribir mientras se ejecutan en tu instancia de Vertex AI Workbench. Para obtener más información sobre los atributos de invitado, consulta Información sobre los metadatos de máquinas virtuales.

    Cómo usan las instancias los atributos de invitado para informar sobre el estado del sistema

    El servicio notebooks-collection-agent ejecuta un proceso de Python en segundo plano que verifica el estado de los servicios principales de la instancia de Vertex AI Workbench y actualiza los atributos de invitado como 1 si no se detectan problemas o -1 si se detecta un fallo.

    Para usar el servicio notebooks-collection-agent para generar informes sobre el estado de tu instancia de Vertex AI Workbench, debes habilitar los siguientes atributos de invitado al crear una instancia de Vertex AI Workbench:

    • enable-guest-attributes=TRUE: habilita los atributos de invitado en tu instancia de Vertex AI Workbench. Todas las instancias nuevas habilitan este atributo de forma predeterminada.
    • report-event-health=TRUE: registra los resultados de la comprobación del estado del sistema en los atributos de invitado.

    El servicio notebooks-collection-agent no necesita ningún permiso especial para escribir en los atributos de invitado de la instancia.

    Crear una instancia de Vertex AI Workbench con los atributos de invitado de estado del sistema habilitados

    Para usar los atributos de invitado de estado del sistema para generar informes sobre el estado de tu instancia de Vertex AI Workbench, debes seleccionar la casilla Habilitar informe de estado del sistema al crear una instancia de Vertex AI Workbench.

    Puedes habilitar el informe de estado del sistema mediante la Google Cloud consola.

    1. En la consola, ve a la página Instancias. Google Cloud

      Ir a Instancias

    2. Haz clic en  Crear.

    3. En el cuadro de diálogo Nueva instancia, haz clic en Opciones avanzadas.

    4. En el cuadro de diálogo Crear instancia, vaya a la sección Detalles y proporcione la siguiente información sobre la nueva instancia:

      • Nombre: asigna un nombre a la nueva instancia.
      • Región y Zona: selecciona una región y una zona para la nueva instancia. Para obtener el mejor rendimiento de red, selecciona la región que esté geográficamente más cerca de ti.
    5. En la sección Estado del sistema, en Informes, selecciona Informar del estado del sistema.

    6. Completa el resto del cuadro de diálogo de creación de la instancia y, a continuación, haz clic en Crear.

    Monitorizar el estado del sistema mediante atributos de invitado

    En las instancias de Vertex AI Workbench que tengan habilitados los atributos de invitado relacionados, puedes recuperar los valores de los atributos de invitado de estado del sistema mediante la consola, la CLI de Google Cloud con comandos de Compute Engine o la CLI de Google Cloud con comandos de Vertex AI Workbench. Google Cloud

    Consola

    1. En la consola, ve a la página Instancias. Google Cloud

      Ir a Instancias

    2. Haga clic en el nombre de la instancia cuyo estado de salud del sistema quiera ver.

    3. En la página Detalles de la instancia, haga clic en la pestaña Estado. Consulta el estado de tu instancia y sus servicios principales.

    gcloud con Compute Engine

    gcloud compute instances get-guest-attributes INSTANCE_NAME \
        --zone ZONE
    

    Haz los cambios siguientes:

    • INSTANCE_NAME: el nombre de tu instancia
    • ZONE: la zona en la que se encuentra tu instancia

    Si sus servicios principales están en buen estado, los resultados serán similares a los siguientes. El valor 1 significa que no se ha detectado ningún fallo.

     NAMESPACE   KEY                         VALUE
     notebooks   docker_proxy_agent_status   1
     notebooks   docker_status               1
     notebooks   jupyterlab_api_status       1
     notebooks   jupyterlab_status           1
     notebooks   system-health               1
     notebooks   updated                     2023-06-20 17:00:00.12345
    

    Si falla alguno de los cuatro servicios principales, el estado del sistema devuelve un valor -1 para indicar que el sistema ha fallado. En la mayoría de los casos, una avería del sistema significa que no se puede acceder a JupyterLab.

    Un ejemplo de resultado de error podría ser el siguiente.

     NAMESPACE   KEY                         VALUE
     notebooks   docker_proxy_agent_status   -1
     notebooks   docker_status               -1
     notebooks   jupyterlab_api_status       1
     notebooks   jupyterlab_status           1
     notebooks   system-health               -1
     notebooks   updated                     2023-06-20 17:00:00.12345
    

    Registrar métricas personalizadas en Monitoring

    Las instancias de Vertex AI Workbench te permiten recoger el estado del sistema y las métricas de JupyterLab y enviarlas a Cloud Monitoring. Estas métricas personalizadas son diferentes de las métricas estándar que se registran cuando instalas Monitoring en tu instancia de Vertex AI Workbench.

    Las métricas personalizadas que se envían a Monitoring incluyen las siguientes:

    • El estado del sistema de estos servicios principales de Vertex AI Workbench:

      • Servicio Docker
      • Agente de proxy inverso de Docker
      • Servicio de Jupyter
      • API de Jupyter
    • Las siguientes métricas de JupyterLab:

      • Número de kernels
      • Número de terminales
      • Número de conexiones
      • Número de sesiones
      • Memoria máxima
      • Memoria alta
      • Memoria actual

    Cómo informan las instancias de métricas personalizadas a Monitoring

    Para registrar métricas personalizadas en Monitoring, debes habilitar el ajuste de metadatos report-notebook-metrics al crear una instancia de Vertex AI Workbench.

    También debes asegurarte de que la cuenta de servicio de la instancia de Vertex AI Workbench tenga permisos de escritura de métricas de Monitoring (roles/monitoring.metricWriter). Para obtener más información, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

    Crear una instancia de Vertex AI Workbench que registre métricas personalizadas en Monitoring

    Para enviar métricas personalizadas a Monitoring, debes marcar la casilla Enviar métricas personalizadas a Cloud Monitoring cuando crees una instancia de Vertex AI Workbench.

    Para habilitar la creación de informes de métricas personalizadas en Cloud Monitoring, puedes usar la Google Cloud consola.

    1. En la consola, ve a la página Instancias. Google Cloud

      Ir a Instancias

    2. Haz clic en  Crear.

    3. En el cuadro de diálogo Nueva instancia, haz clic en Opciones avanzadas.

    4. En el cuadro de diálogo Crear instancia, vaya a la sección Detalles y proporcione la siguiente información sobre la nueva instancia:

      • Nombre: asigna un nombre a la nueva instancia.
      • Región y Zona: selecciona una región y una zona para la nueva instancia. Para obtener el mejor rendimiento de red, selecciona la región que esté geográficamente más cerca de ti.
    5. En la sección Estado del sistema, en Informes, selecciona Enviar métricas personalizadas a Cloud Monitoring.

    6. Completa el resto del cuadro de diálogo de creación de la instancia y, a continuación, haz clic en Crear.

    Concede permisos de escritura de métricas de Monitoring a la cuenta de servicio

    Una vez que hayas creado tu nueva instancia de Vertex AI Workbench, otorga permisos de escritura de métricas de monitorización (roles/monitoring.metricWriter) a la cuenta de servicio de la instancia de Vertex AI Workbench. Para obtener más información, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

    Monitorizar métricas personalizadas a través de Monitoring

    En las instancias de Vertex AI Workbench que tienen habilitada la creación de informes de métricas personalizadas, puedes monitorizar tus métricas personalizadas mediante la consola. Google Cloud

    1. En la consola, ve a la página Instancias. Google Cloud

      Ir a Instancias

    2. Haga clic en el nombre de la instancia de la que quiera ver las métricas personalizadas.

    3. En la página Detalles de la instancia, haga clic en la pestaña Monitorización. Revisa las métricas personalizadas de tu instancia.

    Instalar Monitoring en una instancia

    Esta opción instala automáticamente la monitorización. La instalación requiere 256 MB de espacio en disco. Se necesita una conexión a Internet para que las métricas se envíen a Monitoring.

    Cómo informan las instancias sobre las métricas del sistema y de las aplicaciones

    Para registrar métricas del sistema y de las aplicaciones instalando Cloud Monitoring en tu instancia de Vertex AI Workbench, debes marcar la casilla Instalar agente de Cloud Monitoring al crear una instancia de Vertex AI Workbench. Estas métricas son diferentes de las métricas personalizadas que se registran cuando habilita el ajuste de metadatos report-notebook-metrics.

    Crear una instancia de Vertex AI Workbench que envíe métricas del sistema y de aplicaciones a Monitoring

    Para instalar Monitoring en tu instancia de Vertex AI Workbench, puedes usar la Google Cloud consola.

    1. En la consola, ve a la página Instancias. Google Cloud

      Ir a Instancias

    2. Haz clic en  Crear.

    3. En el cuadro de diálogo Nueva instancia, haz clic en Opciones avanzadas.

    4. En el cuadro de diálogo Crear instancia, vaya a la sección Detalles y proporcione la siguiente información sobre la nueva instancia:

      • Nombre: asigna un nombre a la nueva instancia.
      • Región y Zona: selecciona una región y una zona para la nueva instancia. Para obtener el mejor rendimiento de red, selecciona la región que esté geográficamente más cerca de ti.
    5. En la sección Estado del sistema, en Informes, selecciona Instalar Cloud Monitoring.

    6. Completa el resto del cuadro de diálogo de creación de la instancia y, a continuación, haz clic en Crear.

    Monitorizar métricas del sistema y de las aplicaciones con Monitoring

    En las instancias de Vertex AI Workbench que tienen Monitoring instalado, puedes monitorizar las métricas del sistema y de la aplicación mediante la Google Cloud consola:

    1. En la consola, ve a la página Instancias. Google Cloud

      Ir a Instancias

    2. Haga clic en el nombre de la instancia de la que quiera ver las métricas del sistema y de la aplicación.

    3. En la página Detalles de la instancia, haga clic en la pestaña Monitorización. Revisa las métricas del sistema y de las aplicaciones de tu instancia. Para saber cómo interpretar estas métricas, consulte Revisar métricas de recursos.

    Usar la herramienta de diagnóstico para monitorizar el estado del sistema

    Las instancias de Vertex AI Workbench incluyen una herramienta de diagnóstico integrada que puede ayudarte a monitorizar el estado del sistema de tus instancias.

    Tareas que realiza la herramienta de diagnóstico

    La herramienta de diagnóstico realiza las siguientes tareas:

    • Verifica el estado de los siguientes servicios principales de Vertex AI Workbench:

      • Servicio Docker
      • Agente de proxy inverso de Docker
      • Servicio de Jupyter
      • API de Jupyter
    • Comprueba si el espacio en disco de los discos de arranque y de datos se ha utilizado por encima del umbral del 85 %.

    • Instala lsof (se requiere conexión a Internet).

    • Recoge los siguientes registros de instancias:

      • Información de la red (ifconfig, netstat)
      • Registros de la carpeta /var/log/
      • Información sobre el estado de Docker
      • Datos lsof (archivos abiertos)
      • Estado del servicio Docker
      • Estado del agente de proxy inverso
      • Estado del servicio de Jupyter
      • Estado de la API de Jupyter
      • Archivo de configuración del agente proxy
      • Procesos de Python
    • Ejecuta los siguientes comandos y recoge los resultados:

      • Congelar imagen en imagen
      • conda list
      • gcloud compute instances describe INSTANCE_NAME
      • gcloud config list

    Ejecutar la herramienta de diagnóstico

    Si tu instancia usa un contenedor personalizado, consulta Ejecutar la herramienta de diagnóstico en la documentación de contenedores personalizados de Vertex AI Workbench.

    Para ejecutar la herramienta de diagnóstico en una instancia que no use un contenedor personalizado, sigue estos pasos:

    1. Usa SSH para conectarte a tu instancia de Vertex AI Workbench.

    2. En el terminal SSH, ejecuta los siguientes comandos:

      sudo -i
      cd /opt/deeplearning/bin/
      ./diagnostic_tool.sh

      La herramienta de diagnóstico recoge los registros, los comprime en un archivo .tar.gz y coloca el archivo en la carpeta /tmp/.

    3. Extrae el archivo y evalúa su contenido. El contenido incluye lo siguiente:

      • Carpeta log: registros de la carpeta var/log/
      • report.log: salida de todos los comandos recogidos
      • proxy-agent-config.json: Información de configuración del proxy
      • Registro de Docker: un archivo -json.log que incluye registros de contenedores Docker.

    Puedes usar las siguientes opciones con la herramienta de diagnóstico.

    Opción Descripción
    -r Una opción de reparación que intenta restaurar el estado de los servicios principales de Vertex AI Workbench que han fallado
    -s Se ejecuta sin confirmación.
    -b Sube el archivo .tar.gz a un segmento de Cloud Storage.
    -v Una opción de depuración para solucionar problemas de la herramienta en caso de que falle
    -c Captura 30 segundos de tráfico de paquetes en tu instancia de Vertex AI Workbench y filtra SSH.
    -d Una carpeta de destino en la que guardar los registros
    -h Ayuda

    Siguientes pasos