Monitoraggio delle prestazioni della GPU sulle VM Linux


Puoi monitorare metriche come l'utilizzo della GPU e la memoria della GPU dalle tue istanze di macchine virtuali (VM) utilizzando Ops Agent, la soluzione di raccolta della telemetria consigliata da Google per Compute Engine. Utilizzando l'Ops Agent, puoi gestire le tue VM con GPU nel seguente modo:

  • Visualizza lo stato del tuo parco risorse di GPU NVIDIA con le nostre dashboard preconfigurate.
  • Ottimizza i costi identificando le GPU sottoutilizzate e consolidando i carichi di lavoro.
  • Pianifica lo scaling esaminando le tendenze per decidere quando espandere la capacità della GPU o eseguire l'upgrade delle GPU esistenti.
  • Utilizza le metriche di profilazione di NVIDIA Data Center GPU Manager (DCGM) per identificare colli di bottiglia e problemi di prestazioni all'interno delle GPU.
  • Configura i gruppi di istanze gestite (MIG) per scalare automaticamente le risorse.
  • Ricevi avvisi sulle metriche delle tue GPU NVIDIA.

Questo documento descrive le procedure per monitorare le GPU sulle VM Linux utilizzando Ops Agent. In alternativa, su GitHub è disponibile uno script di reporting che può essere configurato anche per monitorare l'utilizzo della GPU nelle VM Linux. Consulta lo script di monitoraggio compute-gpu-monitoring. Questo script non è più mantenuto in modo attivo.

Per monitorare le GPU sulle VM Windows, consulta Monitoraggio delle prestazioni della GPU (Windows).

Panoramica

Ops Agent, versione 2.38.0 o successive, può monitorare automaticamente i tassi di utilizzo della GPU e della memoria GPU sulle VM Linux su cui è installato l'agente. Queste metriche, ottenute dalla libreria di gestione NVIDIA (NVML), vengono monitorate per GPU e per processo per qualsiasi processo che utilizza le GPU. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche dell'agente: gpu.

Puoi anche configurare l'integrazione di NVIDIA Data Center GPU Manager (DCGM) con Ops Agent. Questa integrazione consente a Ops Agent di monitorare le metriche utilizzando i contatori hardware sulla GPU. DCGM fornisce l'accesso alle metriche a livello di dispositivo GPU. Questi includono l'utilizzo del blocco Streaming Multiprocessor (SM), l'occupazione SM, l'utilizzo della pipeline SM, la velocità del traffico PCIe e la velocità del traffico NVLink. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche delle applicazioni di terze parti: NVIDIA Data Center GPU Manager (DCGM).

Per esaminare le metriche della GPU utilizzando Ops Agent, completa i seguenti passaggi:

  1. Su ogni VM, verifica di aver soddisfatto i requisiti.
  2. Su ogni VM, installa l'agente operativo.
  3. (Facoltativo) Su ogni VM, configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM).
  4. Esamina le metriche in Cloud Monitoring.

Limitazioni

  • Ops Agent non monitora l'utilizzo della GPU sulle VM che utilizzano Container-Optimized OS.

Requisiti

Su ogni VM, verifica di soddisfare i seguenti requisiti:

  • A ogni VM devono essere collegate GPU.
  • In ogni VM deve essere installato un driver GPU.
  • Il sistema operativo e la versione Linux di ogni VM devono supportare Ops Agent. Consulta l'elenco dei sistemi operativi Linux che supportano Ops Agent.
  • Assicurati di disporre dell'accesso sudo a ogni VM.

Installazione dell'agente operativo

Per installare Ops Agent, completa i seguenti passaggi:

  1. Se in precedenza utilizzavi lo script di monitoraggio compute-gpu-monitoring per monitorare l'utilizzo della GPU, disattiva il servizio prima di installare l'Ops Agent. Per disattivare lo script di monitoraggio, esegui questo comando:

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. Installa l'ultima versione dell'Ops Agent. Per istruzioni dettagliate, vedi Installazione dell'agente Ops.

  3. Dopo aver installato Ops Agent, se devi installare o eseguire l'upgrade dei driver GPU utilizzando gli script di installazione forniti da Compute Engine, consulta la sezione Limitazioni.

Esamina le metriche NVML in Compute Engine

Puoi esaminare le metriche NVML raccolte da Ops Agent dalle schede Osservabilità per le istanze VM Linux di Compute Engine.

Per visualizzare le metriche per una singola VM:

  1. Nella console Google Cloud , vai alla pagina Istanze VM.

    Vai a Istanze VM

  2. Seleziona una VM per aprire la pagina Dettagli.

  3. Fai clic sulla scheda Osservabilità per visualizzare le informazioni sulla VM.

  4. Seleziona il filtro rapido GPU.

Per visualizzare le metriche per più VM:

  1. Nella console Google Cloud , vai alla pagina Istanze VM.

    Vai a Istanze VM

  2. Fai clic sulla scheda Osservabilità.

  3. Seleziona il filtro rapido GPU.

(Facoltativo) Configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM)

Ops Agent fornisce anche l'integrazione per NVIDIA Data Center GPU Manager (DCGM) per raccogliere metriche GPU avanzate chiave come l'utilizzo dei blocchi Streaming Multiprocessor (SM), l'occupazione SM, l'utilizzo della pipeline SM, la velocità del traffico PCIe e la velocità del traffico NVLink.

Queste metriche avanzate della GPU non vengono raccolte dai modelli NVIDIA P100 e P4.

Per istruzioni dettagliate su come configurare e utilizzare questa integrazione su ogni VM, vedi NVIDIA Data Center GPU Manager (DCGM).

Esamina le metriche DCGM in Cloud Monitoring

  1. Nella console Google Cloud , vai alla pagina Monitoring > Dashboard.

    Vai a Monitoring

  2. Seleziona la scheda Libreria di campioni.

  3. Nel campo Filtro di , digita NVIDIA. Viene visualizzata la dashboard Panoramica del monitoraggio delle GPU NVIDIA (GCE e GKE).

    Se hai configurato l'integrazione di NVIDIA Data Center GPU Manager (DCGM), viene visualizzata anche la dashboard Metriche DCGM avanzate di monitoraggio GPU NVIDIA (solo GCE).

    Dashboard di Cloud Monitoring

  4. Per la dashboard richiesta, fai clic su Anteprima. Viene visualizzata la pagina Anteprima dashboard di esempio.

  5. Nella pagina Anteprima dashboard di esempio, fai clic su Importa dashboard di esempio.

    • La dashboard Panoramica del monitoraggio delle GPU NVIDIA (GCE e GKE) mostra le metriche della GPU, come l'utilizzo della GPU, la velocità del traffico NIC e l'utilizzo della memoria GPU.

      La visualizzazione dell'utilizzo della GPU è simile al seguente output:

      Cloud Monitoring (NVML)

    • La dashboard Metriche DCGM avanzate per il monitoraggio delle GPU NVIDIA (solo GCE) mostra le principali metriche avanzate, come utilizzo SM, occupazione SM, utilizzo della pipeline SM, velocità del traffico PCIe e velocità del traffico NVLink.

      La visualizzazione delle metriche DCGM avanzate è simile al seguente output:

      Cloud Monitoring (DCGM)

Passaggi successivi