Monitorizar el estado
Las instancias de Vertex AI Workbench ofrecen varios métodos para monitorizar el estado de tus cuadernos. En esta página se describe cómo usar cada método.
Métodos para monitorizar el estado de salud
Puedes monitorizar el estado de tus instancias de Vertex AI Workbench de varias formas. En esta página se describe cómo usar los siguientes métodos:
Antes de empezar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Install the Google Cloud CLI.
-
Si utilizas un proveedor de identidades (IdP) externo, primero debes iniciar sesión en la CLI de gcloud con tu identidad federada.
-
Para inicializar gcloud CLI, ejecuta el siguiente comando:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Install the Google Cloud CLI.
-
Si utilizas un proveedor de identidades (IdP) externo, primero debes iniciar sesión en la CLI de gcloud con tu identidad federada.
-
Para inicializar gcloud CLI, ejecuta el siguiente comando:
gcloud init
- Servicio Docker
- Agente de proxy inverso de Docker
- Servicio de Jupyter
- API de Jupyter
enable-guest-attributes=TRUE
: habilita los atributos de invitado en tu instancia de Vertex AI Workbench. Todas las instancias nuevas habilitan este atributo de forma predeterminada.report-event-health=TRUE
: registra los resultados de la comprobación del estado del sistema en los atributos de invitado.En la consola, ve a la página Instancias. Google Cloud
Haz clic en
Crear.En el cuadro de diálogo Nueva instancia, haz clic en Opciones avanzadas.
En el cuadro de diálogo Crear instancia, vaya a la sección Detalles y proporcione la siguiente información sobre la nueva instancia:
- Nombre: asigna un nombre a la nueva instancia.
- Región y Zona: selecciona una región y una zona para la nueva instancia. Para obtener el mejor rendimiento de red, selecciona la región que esté geográficamente más cerca de ti.
En la sección Estado del sistema, en Informes, selecciona Informar del estado del sistema.
Completa el resto del cuadro de diálogo de creación de la instancia y, a continuación, haz clic en Crear.
En la consola, ve a la página Instancias. Google Cloud
Haga clic en el nombre de la instancia cuyo estado de salud del sistema quiera ver.
En la página Detalles de la instancia, haga clic en la pestaña Estado. Consulta el estado de tu instancia y sus servicios principales.
INSTANCE_NAME
: el nombre de tu instanciaZONE
: la zona en la que se encuentra tu instanciaEl estado del sistema de estos servicios principales de Vertex AI Workbench:
- Servicio Docker
- Agente de proxy inverso de Docker
- Servicio de Jupyter
- API de Jupyter
Las siguientes métricas de JupyterLab:
- Número de kernels
- Número de terminales
- Número de conexiones
- Número de sesiones
- Memoria máxima
- Memoria alta
- Memoria actual
En la consola, ve a la página Instancias. Google Cloud
Haz clic en
Crear.En el cuadro de diálogo Nueva instancia, haz clic en Opciones avanzadas.
En el cuadro de diálogo Crear instancia, vaya a la sección Detalles y proporcione la siguiente información sobre la nueva instancia:
- Nombre: asigna un nombre a la nueva instancia.
- Región y Zona: selecciona una región y una zona para la nueva instancia. Para obtener el mejor rendimiento de red, selecciona la región que esté geográficamente más cerca de ti.
En la sección Estado del sistema, en Informes, selecciona Enviar métricas personalizadas a Cloud Monitoring.
Completa el resto del cuadro de diálogo de creación de la instancia y, a continuación, haz clic en Crear.
En la consola, ve a la página Instancias. Google Cloud
Haga clic en el nombre de la instancia de la que quiera ver las métricas personalizadas.
En la página Detalles de la instancia, haga clic en la pestaña Monitorización. Revisa las métricas personalizadas de tu instancia.
En la consola, ve a la página Instancias. Google Cloud
Haz clic en
Crear.En el cuadro de diálogo Nueva instancia, haz clic en Opciones avanzadas.
En el cuadro de diálogo Crear instancia, vaya a la sección Detalles y proporcione la siguiente información sobre la nueva instancia:
- Nombre: asigna un nombre a la nueva instancia.
- Región y Zona: selecciona una región y una zona para la nueva instancia. Para obtener el mejor rendimiento de red, selecciona la región que esté geográficamente más cerca de ti.
En la sección Estado del sistema, en Informes, selecciona Instalar Cloud Monitoring.
Completa el resto del cuadro de diálogo de creación de la instancia y, a continuación, haz clic en Crear.
En la consola, ve a la página Instancias. Google Cloud
Haga clic en el nombre de la instancia de la que quiera ver las métricas del sistema y de la aplicación.
En la página Detalles de la instancia, haga clic en la pestaña Monitorización. Revisa las métricas del sistema y de las aplicaciones de tu instancia. Para saber cómo interpretar estas métricas, consulte Revisar métricas de recursos.
Verifica el estado de los siguientes servicios principales de Vertex AI Workbench:
- Servicio Docker
- Agente de proxy inverso de Docker
- Servicio de Jupyter
- API de Jupyter
Comprueba si el espacio en disco de los discos de arranque y de datos se ha utilizado por encima del umbral del 85 %.
Instala
lsof
(se requiere conexión a Internet).Recoge los siguientes registros de instancias:
- Información de la red (
ifconfig
,netstat
) - Registros de la carpeta
/var/log/
- Información sobre el estado de Docker
- Datos
lsof
(archivos abiertos) - Estado del servicio Docker
- Estado del agente de proxy inverso
- Estado del servicio de Jupyter
- Estado de la API de Jupyter
- Archivo de configuración del agente proxy
- Procesos de Python
- Información de la red (
Ejecuta los siguientes comandos y recoge los resultados:
- Congelar imagen en imagen
- conda list
- gcloud compute instances describe
INSTANCE_NAME
- gcloud config list
Usa SSH para conectarte a tu instancia de Vertex AI Workbench.
En el terminal SSH, ejecuta los siguientes comandos:
sudo -i cd /opt/deeplearning/bin/ ./diagnostic_tool.sh
La herramienta de diagnóstico recoge los registros, los comprime en un archivo
.tar.gz
y coloca el archivo en la carpeta/tmp/
.Extrae el archivo y evalúa su contenido. El contenido incluye lo siguiente:
- Carpeta
log
: registros de la carpetavar/log/
report.log
: salida de todos los comandos recogidosproxy-agent-config.json
: Información de configuración del proxy- Registro de Docker: un archivo
-json.log
que incluye registros de contenedores Docker.
- Carpeta
Usar atributos de invitado para informar sobre el estado del sistema
Puedes usar atributos de invitado para informar sobre el estado del sistema de los siguientes servicios principales:
Los atributos de invitado son un tipo específico de metadatos personalizados que las aplicaciones pueden escribir mientras se ejecutan en tu instancia de Vertex AI Workbench. Para obtener más información sobre los atributos de invitado, consulta Información sobre los metadatos de máquinas virtuales.
Cómo usan las instancias los atributos de invitado para informar sobre el estado del sistema
El servicio notebooks-collection-agent
ejecuta un proceso de Python en segundo plano que verifica el estado de los servicios principales de la instancia de Vertex AI Workbench y actualiza los atributos de invitado como 1
si no se detectan problemas o -1
si se detecta un fallo.
Para usar el servicio notebooks-collection-agent
para generar informes sobre el estado de tu instancia de Vertex AI Workbench, debes habilitar los siguientes atributos de invitado al crear una instancia de Vertex AI Workbench:
El servicio notebooks-collection-agent
no necesita ningún permiso especial para escribir en los atributos de invitado de la instancia.
Crear una instancia de Vertex AI Workbench con los atributos de invitado de estado del sistema habilitados
Para usar los atributos de invitado de estado del sistema para generar informes sobre el estado de tu instancia de Vertex AI Workbench, debes seleccionar la casilla Habilitar informe de estado del sistema al crear una instancia de Vertex AI Workbench.
Puedes habilitar el informe de estado del sistema mediante la Google Cloud consola.
Monitorizar el estado del sistema mediante atributos de invitado
En las instancias de Vertex AI Workbench que tengan habilitados los atributos de invitado relacionados, puedes recuperar los valores de los atributos de invitado de estado del sistema mediante la consola, la CLI de Google Cloud con comandos de Compute Engine o la CLI de Google Cloud con comandos de Vertex AI Workbench. Google Cloud
Consola
gcloud con Compute Engine
gcloud compute instances get-guest-attributes INSTANCE_NAME \
--zone ZONE
Haz los cambios siguientes:
Si sus servicios principales están en buen estado, los resultados serán similares a los siguientes.
El valor 1
significa que no se ha detectado ningún fallo.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status 1
notebooks docker_status 1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health 1
notebooks updated 2023-06-20 17:00:00.12345
Si falla alguno de los cuatro servicios principales, el estado del sistema devuelve un valor -1
para indicar que el sistema ha fallado. En la mayoría de los casos, una avería del sistema significa que no se puede acceder a JupyterLab.
Un ejemplo de resultado de error podría ser el siguiente.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status -1
notebooks docker_status -1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health -1
notebooks updated 2023-06-20 17:00:00.12345
Registrar métricas personalizadas en Monitoring
Las instancias de Vertex AI Workbench te permiten recoger el estado del sistema y las métricas de JupyterLab y enviarlas a Cloud Monitoring. Estas métricas personalizadas son diferentes de las métricas estándar que se registran cuando instalas Monitoring en tu instancia de Vertex AI Workbench.
Las métricas personalizadas que se envían a Monitoring incluyen las siguientes:
Cómo informan las instancias de métricas personalizadas a Monitoring
Para registrar métricas personalizadas en Monitoring, debes habilitar el ajuste de metadatos report-notebook-metrics
al crear una instancia de Vertex AI Workbench.
También debes asegurarte de que la cuenta de servicio de la instancia de Vertex AI Workbench tenga permisos de escritura de métricas de Monitoring (roles/monitoring.metricWriter
). Para obtener más información, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Crear una instancia de Vertex AI Workbench que registre métricas personalizadas en Monitoring
Para enviar métricas personalizadas a Monitoring, debes marcar la casilla Enviar métricas personalizadas a Cloud Monitoring cuando crees una instancia de Vertex AI Workbench.
Para habilitar la creación de informes de métricas personalizadas en Cloud Monitoring, puedes usar la Google Cloud consola.
Concede permisos de escritura de métricas de Monitoring a la cuenta de servicio
Una vez que hayas creado tu nueva instancia de Vertex AI Workbench, otorga permisos de escritura de métricas de monitorización (roles/monitoring.metricWriter
) a la cuenta de servicio de la instancia de Vertex AI Workbench.
Para obtener más información, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Monitorizar métricas personalizadas a través de Monitoring
En las instancias de Vertex AI Workbench que tienen habilitada la creación de informes de métricas personalizadas, puedes monitorizar tus métricas personalizadas mediante la consola. Google Cloud
Instalar Monitoring en una instancia
Esta opción instala automáticamente la monitorización. La instalación requiere 256 MB de espacio en disco. Se necesita una conexión a Internet para que las métricas se envíen a Monitoring.
Cómo informan las instancias sobre las métricas del sistema y de las aplicaciones
Para registrar métricas del sistema y de las aplicaciones instalando Cloud Monitoring en tu instancia de Vertex AI Workbench, debes marcar la casilla Instalar agente de Cloud Monitoring al crear una instancia de Vertex AI Workbench.
Estas métricas son diferentes de las métricas personalizadas que se registran cuando habilita el ajuste de metadatos report-notebook-metrics
.
Crear una instancia de Vertex AI Workbench que envíe métricas del sistema y de aplicaciones a Monitoring
Para instalar Monitoring en tu instancia de Vertex AI Workbench, puedes usar la Google Cloud consola.
Monitorizar métricas del sistema y de las aplicaciones con Monitoring
En las instancias de Vertex AI Workbench que tienen Monitoring instalado, puedes monitorizar las métricas del sistema y de la aplicación mediante la Google Cloud consola:
Usar la herramienta de diagnóstico para monitorizar el estado del sistema
Las instancias de Vertex AI Workbench incluyen una herramienta de diagnóstico integrada que puede ayudarte a monitorizar el estado del sistema de tus instancias.
Tareas que realiza la herramienta de diagnóstico
La herramienta de diagnóstico realiza las siguientes tareas:
Ejecutar la herramienta de diagnóstico
Si tu instancia usa un contenedor personalizado, consulta Ejecutar la herramienta de diagnóstico en la documentación de contenedores personalizados de Vertex AI Workbench.
Para ejecutar la herramienta de diagnóstico en una instancia que no use un contenedor personalizado, sigue estos pasos:
Puedes usar las siguientes opciones con la herramienta de diagnóstico.
Opción | Descripción |
---|---|
-r | Una opción de reparación que intenta restaurar el estado de los servicios principales de Vertex AI Workbench que han fallado |
-s | Se ejecuta sin confirmación. |
-b |
Sube el archivo .tar.gz a un segmento de Cloud Storage.
|
-v | Una opción de depuración para solucionar problemas de la herramienta en caso de que falle |
-c | Captura 30 segundos de tráfico de paquetes en tu instancia de Vertex AI Workbench y filtra SSH. |
-d | Una carpeta de destino en la que guardar los registros |
-h | Ayuda |