Puede realizar un seguimiento de métricas como la utilización de la GPU y la memoria de la GPU desde las instancias de su máquina virtual (VM) utilizando Ops Agent , que es la solución de recopilación de telemetría recomendada por Google para Compute Engine. Al utilizar Ops Agent, puede administrar sus máquinas virtuales GPU de la siguiente manera:
- Visualice el estado de su flota de GPU NVIDIA con nuestros paneles preconfigurados.
- Optimice los costos identificando GPU infrautilizadas y consolidando cargas de trabajo.
- Planifique la ampliación observando las tendencias para decidir cuándo ampliar la capacidad de la GPU o actualizar las GPU existentes.
- Utilice las métricas de creación de perfiles de NVIDIA Data Center GPU Manager (DCGM) para identificar cuellos de botella y problemas de rendimiento dentro de sus GPU.
- Configure grupos de instancias administrados (MIG) para escalar automáticamente los recursos.
- Recibe alertas sobre métricas de tus GPU NVIDIA.
Este documento cubre los procedimientos para monitorear GPU en máquinas virtuales Linux mediante el uso de Ops Agent. Alternativamente, hay un script de informes disponible en GitHub que también se puede configurar para monitorear el uso de GPU en máquinas virtuales Linux; consulte el script de monitoreo compute-gpu-monitoring
. Este script no se mantiene activamente.
Para monitorear GPU en máquinas virtuales Windows, consulte Monitoreo del rendimiento de GPU (Windows) .
Descripción general
Ops Agent, versión 2.38.0 o posterior, puede rastrear automáticamente la utilización de GPU y las tasas de uso de memoria de GPU en sus máquinas virtuales Linux que tienen el agente instalado. Estas métricas, obtenidas de la Biblioteca de administración de NVIDIA (NVML), se rastrean por GPU y por proceso para cualquier proceso que utilice GPU. Para ver las métricas supervisadas por el agente de operaciones, consulte Métricas del agente: gpu .
También puede configurar la integración de NVIDIA Data Center GPU Manager (DCGM) con Ops Agent. Esta integración permite al agente de operaciones realizar un seguimiento de las métricas utilizando los contadores de hardware de la GPU. DCGM proporciona acceso a las métricas a nivel de dispositivo GPU. Estos incluyen la utilización del bloque Streaming Multiprocessor (SM), la ocupación de SM, la utilización de tuberías SM, la tasa de tráfico PCIe y la tasa de tráfico NVLink. Para ver las métricas monitoreadas por Ops Agent, consulte Métricas de aplicaciones de terceros: NVIDIA Data Center GPU Manager (DCGM) .
Para revisar las métricas de GPU mediante el agente de operaciones, complete los siguientes pasos:
- En cada VM, verifique que haya cumplido con los requisitos .
- En cada VM, instale Ops Agent .
- Opcional: en cada máquina virtual, configure la integración de NVIDIA Data Center GPU Manager (DCGM) .
- Revisar métricas en Cloud Monitoring .
Limitaciones
- Ops Agent no realiza un seguimiento de la utilización de GPU en máquinas virtuales que utilizan un sistema operativo optimizado para contenedores.
Requisitos
En cada una de sus máquinas virtuales, verifique que cumpla con los siguientes requisitos:
- Cada VM debe tener GPU conectadas .
- Cada VM debe tener instalado un controlador de GPU .
- El sistema operativo Linux y la versión de cada una de sus máquinas virtuales deben ser compatibles con Ops Agent. Consulte la lista de sistemas operativos Linux que admiten Ops Agent.
- Asegúrese de tener acceso
sudo
a cada VM.
Instalar el agente de operaciones
Para instalar Ops Agent, complete los siguientes pasos:
Si anteriormente estaba utilizando el script de monitoreo
compute-gpu-monitoring
para rastrear la utilización de la GPU, deshabilite el servicio antes de instalar Ops Agent. Para deshabilitar el script de monitoreo, ejecute el siguiente comando:sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
Instale la última versión del Agente de Operaciones. Para obtener instrucciones detalladas, consulte Instalación del agente de operaciones .
Después de haber instalado el agente de Ops, si necesita instalar o actualizar los controladores de su GPU mediante los scripts de instalación proporcionados por Compute Engine , revise la sección de limitaciones .
Revisar las métricas NVML en Compute Engine
Puedes revisar las métricas NVML que Ops Agent recopila en las pestañas Observabilidad para instancias de VM Linux de Compute Engine.
Para ver las métricas de una única máquina virtual, haga lo siguiente:
En la consola de Google Cloud, vaya a la página de instancias de VM .
Seleccione una máquina virtual para abrir la página Detalles .
Haga clic en la pestaña Observabilidad para mostrar información sobre la VM.
Seleccione el filtro rápido de GPU .
Para ver las métricas de varias máquinas virtuales, haga lo siguiente:
En la consola de Google Cloud, vaya a la página de instancias de VM .
Haga clic en la pestaña Observabilidad .
Seleccione el filtro rápido de GPU .
Opcional: configurar la integración de NVIDIA Data Center GPU Manager (DCGM)
Ops Agent también proporciona integración para NVIDIA Data Center GPU Manager (DCGM) para recopilar métricas avanzadas clave de GPU, como la utilización de bloques de Streaming Multiprocessor (SM), la ocupación de SM, la utilización de tuberías de SM, la tasa de tráfico PCIe y la tasa de tráfico NVLink.
Estas métricas avanzadas de GPU no se recopilan de los modelos NVIDIA P100 y P4.
Para obtener instrucciones detalladas sobre cómo configurar y utilizar esta integración en cada VM, consulte NVIDIA Data Center GPU Manager (DCGM) .
Revisar las métricas de DCGM en Cloud Monitoring
En la consola de Google Cloud, vaya a la página Monitoreo > Paneles .
Seleccione la pestaña Biblioteca de muestras .
En el campo Filtro
, escriba NVIDIA . Se muestra el panel de descripción general de monitoreo de GPU de NVIDIA (GCE y GKE) .Si ha configurado la integración del Administrador de GPU del centro de datos de NVIDIA (DCGM), también se muestra el panel de Métricas DCGM avanzadas de monitoreo de GPU de NVIDIA (solo GCE) .
Para el panel requerido, haga clic en Vista previa . Se muestra la página de vista previa del panel de ejemplo .
En la página de vista previa del panel de muestra , haga clic en Importar panel de muestra .
El panel de descripción general de monitoreo de GPU de NVIDIA (GCE y GKE) muestra las métricas de GPU, como la utilización de GPU, la tasa de tráfico de NIC y el uso de memoria de GPU.
La visualización de utilización de GPU es similar al siguiente resultado:
El panel de métricas DCGM avanzadas de monitoreo de GPU de NVIDIA (solo GCE) muestra métricas avanzadas clave, como la utilización de SM, la ocupación de SM, la utilización de tuberías de SM, la tasa de tráfico PCIe y la tasa de tráfico NVLink.
Su pantalla de Métrica DCGM avanzada es similar al siguiente resultado:
¿Qué sigue?
- Para gestionar el mantenimiento del host de GPU, consulte Manejo de eventos de mantenimiento del host de GPU .
- Para mejorar el rendimiento de la red, consulte Usar un mayor ancho de banda de red .