Questa pagina è stata tradotta dall'API Cloud Translation.

NVIDIA Data Center GPU Manager (DCGM)

L'integrazione di NVIDIA Data Center GPU Manager raccoglie le metriche GPU avanzate chiave da DCGM. L'agente Ops può essere configurato per raccogliere uno dei due diversi set di metriche selezionando la versione del ricevitore dcgm:

La versione 2 del ricevitore dcgm fornisce un insieme di metriche selezionate per monitorare le prestazioni e lo stato delle GPU collegate a una determinata istanza VM.
La versione 1 del ricevitore dcgm fornisce un insieme di metriche di profilazione da utilizzare in combinazione con le metriche GPU predefinite. Per informazioni sullo scopo e sull'interpretazione di queste metriche, consulta Metriche di profilazione nella panoramica delle funzionalità DCGM.

Per ulteriori informazioni su NVIDIA Data Center GPU Manager, consulta la documentazione DCGM. Questa integrazione è compatibile con DCGM versione da 3.1 a 3.3.9.

Queste metriche sono disponibili solo per i sistemi Linux. Le metriche di profilazione non vengono raccolte dai modelli di GPU NVIDIA P100 e P4.

Prerequisiti

Per raccogliere le metriche NVIDIA DCGM, devi:

Installa il driver NVIDIA Datacenter.
Installa DCGM.
Installa l'agente operativo.
- Metriche della versione 1: Ops Agent versione 2.38.0 o successive. Solo Ops Agent versione 2.38.0 o versioni 2.41.0 o successive sono compatibili con il monitoraggio della GPU. Non installare le versioni 2.39.0 e 2.40.0 di Ops Agent sulle VM con GPU collegate. Per ulteriori informazioni, vedi Arresti anomali dell'agente e report che menzionano NVIDIA.
- Metriche della versione 2: Ops Agent versione 2.51.0 o successive.

Installare DCGM e verificare l'installazione

Devi installare DCGM versione 3.1-3.3.9 e assicurarti che venga eseguito come servizio con privilegi. Per installare DCGM, consulta la sezione Installazione nella documentazione di DCGM.

Per verificare che DCGM sia in esecuzione correttamente:

Controlla lo stato del servizio DCGM eseguendo il seguente comando:

sudo service nvidia-dcgm status

Se il servizio è in esecuzione, il servizio nvidia-dcgm è elencato come active (running). L'output è simile al seguente:

● nvidia-dcgm.service - NVIDIA DCGM service
Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
Main PID: 24388 (nv-hostengine)
Tasks: 7 (limit: 14745)
CGroup: /system.slice/nvidia-dcgm.service
       └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm

Verifica che i dispositivi GPU siano stati trovati eseguendo questo comando:

dcgmi discovery --list

Se vengono trovati dispositivi, l'output è simile al seguente:

1 GPU found.
+--------+----------------------------------------------------------------------+
| GPU ID | Device Information                                                   |
+--------+----------------------------------------------------------------------+
| 0      | Name: NVIDIA A100-SXM4-40GB                                          |
|        | PCI Bus ID: 00000000:00:04.0                                         |
|        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
+--------+----------------------------------------------------------------------+

Configura Ops Agent per DCGM

Segui la guida per configurare Ops Agent, aggiungi gli elementi richiesti per raccogliere i dati di telemetria dal servizio DCGM e riavvia l'agente.

Configurazione di esempio

I seguenti comandi creano la configurazione per raccogliere e importare le metriche del ricevitore versione 2 per NVIDIA DCGM:

# Configures Ops Agent to collect telemetry from the app. You must restart the agent for the configuration to take effect.
set -e

# Check if the file exists
if [ ! -f /etc/google-cloud-ops-agent/config.yaml ]; then
  # Create the file if it doesn't exist.
  sudo mkdir -p /etc/google-cloud-ops-agent
  sudo touch /etc/google-cloud-ops-agent/config.yaml
fi

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
      receiver_version: 2
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

Se vuoi raccogliere solo le metriche di profilazione DCGM, sostituisci il valore del campo receiver_version con 1. Puoi anche rimuovere completamente la voce receiver_version; la versione predefinita è 1. Non puoi utilizzare entrambe le versioni contemporaneamente.

Affinché le modifiche vengano applicate, devi riavviare l'Ops Agent:

Per riavviare l'agente, esegui il seguente comando sull'istanza:
```
sudo systemctl restart google-cloud-ops-agent
```
Per verificare che l'agente sia stato riavviato, esegui il seguente comando e verifica che i componenti "Agente Metriche" e "Agente Logging" siano stati avviati:
```
sudo systemctl status "google-cloud-ops-agent*"
```

Se ricevi un messaggio di errore come "Unable to connect to DCGM daemon at localhost:5555 on libdcgm.so not Found; Is the DCGM daemon running?" (Impossibile connettersi al daemon DCGM all'indirizzo localhost:5555 su libdcgm.so non trovato; il daemon DCGM è in esecuzione?), probabilmente hai installato la versione 4.0 del servizio DGCM. La libreria condivisa DCGM è stata rinominata in libdgcdm.so.4, che il ricevitore DCGM di Ops Agent non riconosce. Devi utilizzare DCGM versione da 3.1 a 3.3.9.

Se utilizzi un account di servizio personalizzato anziché quello predefinito account di servizio Compute Engine o se hai una VM Compute Engine molto vecchia, potresti dover autorizzare l'agente Ops.

Configurazione della raccolta di metriche

Per importare le metriche da NVIDIA DCGM, devi creare un ricevitore per le metriche prodotte da NVIDIA DCGM e poi creare una pipeline per il nuovo ricevitore.

Questo ricevitore non supporta l'utilizzo di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale e Cloud Monitoring non ha modo di distinguerle.

Per configurare un ricevitore per le metriche dcgm, specifica i seguenti campi:

Campo	Predefinito	Descrizione
`collection_interval`	`60s`	Una durata di tempo, ad esempio `30s` o `5m`.
`endpoint`	`localhost:5555`	Indirizzo del servizio DCGM, formattato come `host:port`.
`receiver_version`	`1`	1 o 2. La versione 2 offre molte più metriche disponibili.
`type`		Questo valore deve essere `dcgm`.

Che cosa viene monitorato

Le tabelle seguenti forniscono elenchi di metriche raccolte da Ops Agent dall'istanza NVIDIA DGCM. Non tutte le metriche sono disponibili per tutti i modelli di GPU. Le metriche di profilazione non vengono raccolte dai modelli di GPU NVIDIA P100 e P4.

Metriche della versione 1

Le seguenti metriche vengono raccolte utilizzando la versione 1 del ricevitore dcgm.

Tipo di metrica
Tipo, Tipo Risorse monitorate	Etichette
`workload.googleapis.com/dcgm.gpu.profiling.dram_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^‡ `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† Non disponibile sui modelli di GPU P100 e P4.

^‡ Per L4, il valore pipe fp64 non è supportato.

Metriche della versione 2

Le seguenti metriche vengono raccolte utilizzando la versione 2 del ricevitore dcgm.

Tipo di metrica
Tipo, Tipo Risorse monitorate	Etichette
`workload.googleapis.com/gpu.dcgm.clock.frequency`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.clock.throttle_duration.time`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid` `violation` ^†
`workload.googleapis.com/gpu.dcgm.codec.decoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.codec.encoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.ecc_errors`
`CUMULATIVE`, `INT64` gce_instance	`error_type` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.energy_consumption`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bandwidth_utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bytes_used`
`GAUGE`, `INT64` gce_instance	`gpu_number` `model` `state` `uuid`
`workload.googleapis.com/gpu.dcgm.nvlink.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pcie.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pipe.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^§ `uuid`
`workload.googleapis.com/gpu.dcgm.sm.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.temperature`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† Per P100 e P4, sono supportati solo i valori violation power, thermal e sync_boost.

^‡ Non disponibile sui modelli di GPU P100 e P4.

^§ Per L4, il valore pipe fp64 non è supportato.

Metriche GPU

Inoltre, la configurazione integrata per Ops Agent raccoglie anche le metriche agent.googleapis.com/gpu, che vengono segnalate dalla libreria di gestione NVIDIA (NVML). Non è necessaria alcuna configurazione aggiuntiva in Ops Agent per raccogliere queste metriche, ma devi creare la VM con GPU collegate e installare il driver della GPU. Per ulteriori informazioni, consulta la sezione Informazioni sulle metriche gpu. Le metriche della versione 1 del ricevitore dcgm sono progettate per integrare queste metriche predefinite, mentre le metriche della versione 2 del ricevitore dcgm sono pensate per essere autonome.

Verificare la configurazione

Questa sezione descrive come verificare di aver configurato correttamente il ricevitore NVIDIA DCGM. Potrebbero essere necessari uno o due minuti prima che Ops Agent inizi a raccogliere i dati di telemetria.

Per verificare che le metriche NVIDIA DCGM vengano inviate a Cloud Monitoring, segui questi passaggi:

Nella console Google Cloud , vai alla pagina Esplora metriche:
Vai a Esplora metriche

Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Nella barra degli strumenti del riquadro del generatore di query, seleziona il pulsante il cui nome è MQL o PromQL.
Verifica che PromQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che ti consente di formattare la query.

Per le metriche v1, inserisci la seguente query nell'editor e poi fai clic su Esegui query:
```
{"workload.googleapis.com/dcgm.gpu.profiling.sm_utilization", monitored_resource="gce_instance"}
```
Per le metriche v2, inserisci la seguente query nell'editor e poi fai clic su Esegui:
```
{"workload.googleapis.com/gpu.dcgm.sm.utilization", monitored_resource="gce_instance"}
```

Visualizza dashboard

Per visualizzare le metriche NVIDIA DCGM, devi configurare un grafico o una dashboard. L'integrazione di NVIDIA DCGM include uno o più dashboard. Le dashboard vengono installate automaticamente dopo la configurazione dell'integrazione e l'inizio della raccolta dei dati delle metriche da parte di Ops Agent.

Puoi anche visualizzare anteprime statiche delle dashboard senza installare l'integrazione.

Per visualizzare una dashboard installata:

Nella console Google Cloud , vai alla pagina Dashboard:
Vai a Dashboard

Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Seleziona la scheda Elenco dashboard e poi scegli la categoria Integrazioni.
Fai clic sul nome della dashboard che vuoi visualizzare.

Se hai configurato un'integrazione, ma la dashboard non è stata installata, verifica che Ops Agent sia in esecuzione. Se non sono presenti dati delle metriche per un grafico nella dashboard, l'installazione della dashboard non va a buon fine. Dopo che Ops Agent inizia a raccogliere le metriche, la dashboard viene installata per te.

Per visualizzare un'anteprima statica della dashboard:

Nella console Google Cloud , vai alla pagina Integrazioni:
Vai a Integrazioni

Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Fai clic sul filtro Compute Engine della piattaforma di deployment.
Individua la voce relativa a NVIDIA DCGM e fai clic su Visualizza dettagli.
Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se la dashboard è installata, puoi accedervi facendo clic su Visualizza dashboard.

Per ulteriori informazioni sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.

Per saperne di più sull'utilizzo della pagina Integrazioni, consulta Gestire le integrazioni.

Limitazioni di DCGM e sospensione della profilazione

L'utilizzo simultaneo di DCGM può entrare in conflitto con l'utilizzo di altri strumenti per sviluppatori NVIDIA, come Nsight Systems o Nsight Compute. Questa limitazione si applica alle GPU NVIDIA A100 e precedenti. Per ulteriori informazioni, consulta la sezione Frequenza di campionamento della profilazione nella panoramica delle funzionalità di DCGM.

Quando devi utilizzare strumenti come Nsight Systems senza interruzioni significative, puoi mettere in pausa o riprendere temporaneamente la raccolta delle metriche utilizzando i seguenti comandi:

dcgmi profile --pause
dcgmi profile --resume

Quando la profilazione è in pausa, nessuna delle metriche DCGM raccolte da Ops Agent viene emessa dalla VM.

Passaggi successivi

Per una procedura dettagliata su come utilizzare Ansible per installare Ops Agent, configurare un'applicazione di terze parti e installare un dashboard di esempio, guarda il video Installare Ops Agent per risolvere i problemi delle applicazioni di terze parti.