Diese Seite wurde von der Cloud Translation API übersetzt.

DCGM-Messwerte erfassen und aufrufen

Autopilot Standard

Sie können GPU-Auslastung, Leistung und Zustand überwachen, indem Sie KGE zum Senden von NVIDIA Data Center GPU Manager-Messwerte (DCGM) zu Cloud Monitoring konfigurieren.

Wenn Sie DCGM-Messwerte aktivieren, installiert GKE das DCGM-Exporter-Tool, installiert von Google verwaltete GPU-Treiber und stellt eine ClusterPodMonitoring-Ressource bereit, um Messwerte an Google Cloud Managed Service for Prometheus zu senden. Für neue GKE-Cluster, die mit Version 1.32.1-gke.1357000 oder höher erstellt wurden, ist das DCGM-Messwertepaket standardmäßig aktiviert. Bei Clustern mit früheren Versionen können Sie die Erfassung von DCGM-Messwerten über die Google Cloud Console, die gcloud CLI oder Terraform aktivieren.

Sie können auch selbstverwaltetes DCGMkonfigurieren, wenn Sie die DCGM-Messwerte anpassen möchten oder wenn Sie einen Cluster haben, der die Anforderungen für verwaltete DCGM-Messwerte nicht erfüllt.

Was ist DCGM?

NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. DCGM stellt verschiedene Observability-Strukturen und ‑Zähler über fields bereit. Jedes Feld hat eine symbolische Kennung und eine Feldnummer. Eine vollständige Liste finden Sie unter NVIDIA DCGM list of Field IDs.

Wenn Sie DCGM-Messwerte in GKE aktivieren, sind die unterstützten Messwerte automatisch in Cloud Monitoring verfügbar. Diese Messwerte bieten einen umfassenden Überblick über GPU-Auslastung, ‑Leistung und ‑Zustand.

GPU-Auslastungsmesswerte geben an, wie stark die überwachte GPU ausgelastet ist und ob sie effektiv für die Verarbeitung von Aufgaben genutzt wird. Dazu gehören Messwerte für die Nutzung von Kernprozessoren, Arbeitsspeicher, E/A und Strom.
GPU-Leistungsmesswerte geben an, wie effektiv und effizient eine GPU eine Rechenaufgabe ausführen kann. Dazu gehören Messwerte für Taktgeschwindigkeit und Temperatur.
GPU-E/A-Messwerte wie NVlink und PCIe messen die Datenübertragungsbandbreite.

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

Aktivieren Sie die Google Kubernetes Engine API.

Google Kubernetes Engine API aktivieren

Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.
Hinweis: Legen Sie für vorhandene Installationen der gcloud CLI das compute/region-Attribut fest. Wenn Sie hauptsächlich zonale Cluster verwenden, legen Sie stattdessen compute/zone fest. Wenn Sie einen standardmäßigen Speicherort festlegen, können Sie in der gcloud CLI Fehler wie diesen vermeiden: One of [--zone, --region] must be supplied: Please specify location. Bei bestimmten Befehlen müssen Sie möglicherweise den Speicherort angeben, wenn er sich von dem von Ihnen festgelegten Standard unterscheidet.

Anforderungen für NVIDIA Data Center GPU Manager-Messwerte (DCGM)

Zum Erfassen von NVIDIA Data Center GPU Manager-Messwerten (DCGM) muss Ihr GKE-Cluster die folgenden Anforderungen erfüllen:

Auf den Clustern muss die GKE-Version 1.30.1-gke.1204000 oder höher ausgeführt werden.
Systemmesswerte-Sammlung muss aktiviert sein
Die von Google Cloud Managed Service for Prometheus-verwaltete Erfassung muss aktiviert sein.
Auf den Knotenpools müssen von der GKE verwaltete GPU-Treiber ausgeführt werden. Das bedeutet, dass Sie Ihre Knotenpools mit default oder latest für --gpu-driver-version erstellen müssen.
In GKE-Version 1.32.0-gke.1764000 oder höher werden Profiling-Messwerte für alle von GKE unterstützten GPU-Typen erfasst. In früheren GKE-Versionen werden Profilmesswerte nur für NVIDIA H100-GPUs mit 80 GB erfasst.

Beschränkungen

Wenn Sie ein selbst bereitgestelltes Messwertpaket des NVIDIA Data Center GPU Manager (DCGM) ausführen, dürfen Sie diese nicht mehr erfassen, bevor Sie die Messwerte des verwalteten NVIDIA Data Center GPU Manager (DCGM) aktivieren. Andernfalls kann es zu doppelten oder falschen Messwerten kommen.
Verwaltete DCGM-Messwerte, einschließlich der zugrunde liegenden Manifeste und Container-Images, sind nur für GKE-Cluster vorgesehen. Verwenden Sie verwaltete DCGM-Messwerte nicht eigenständig und führen Sie sie nicht außerhalb von GKE aus.

Erfassung von DCGM-Messwerten konfigurieren

Sie können GKE so konfigurieren, dass DCGM-Messwerte für einen vorhandenen Cluster erfasst werden. Verwenden Sie dazu die Google Cloud Console, die gcloud CLI oder Terraform.

Console

Erstellen Sie einen GPU-Knotenpool.

Sie müssen entweder Standard oder Neueste für die Installation des GPU-Treibers verwenden.
Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.

Zur Seite "Google Kubernetes Engine"
Klicken Sie auf den Namen Ihres Clusters.
Klicken Sie neben Cloud Monitoring auf .
Wählen Sie SYSTEM und DCGM aus.
Klicken Sie auf „Speichern“.

gcloud

Erstellen Sie einen GPU-Knotenpool.

Sie müssen entweder default oder latest für --gpu-driver-version verwenden.

Cluster aktualisieren:

gcloud container clusters update CLUSTER_NAME \
    --location=COMPUTE_LOCATION \
    --enable-managed-prometheus \
    --monitoring=SYSTEM,DCGM

Ersetzen Sie Folgendes:

CLUSTER_NAME: der Name des vorhandenen Clusters.
COMPUTE_LOCATION: der Compute Engine-Standort des Clusters.

Terraform

Informationen zum Konfigurieren der Erfassung von Messwerten mit Terraform finden Sie im Block monitoring_config in der Terraform-Registry für google_container_cluster. Allgemeine Informationen zur Verwendung von Google Cloud mit Terraform finden Sie unter Terraform mit Google Cloud.

DCGM-Messwerte verwenden

Sie können DCGM-Messwerte über die Dashboards in derGoogle Cloud -Konsole oder direkt auf den Seiten „Clusterübersicht“ und „Clusterdetails“ aufrufen. Weitere Informationen finden Sie unter Beobachtbarkeitsmesswerte aufrufen.

Messwerte lassen sich mit dem Grafana DCGM-Messwerte-Dashboard anzeigen. Weitere Informationen finden Sie unter Abfrage mit Grafana. Wenn Fehler auftreten, lesen Sie den Abschnitt API-Kompatibilität.

Preise

DCGM-Messwerte nutzen Google Cloud Managed Service for Prometheus zum Laden von Messwerten in Cloud Monitoring. In Cloud Monitoring fallen Gebühren für die Aufnahme dieser Messwerte basierend auf der Anzahl der aufgenommenen Stichproben an. Für registrierte Cluster, die zu einem Projekt gehören, bei denen GKE Enterprise-Edition aktiviert ist, fallen keine Kosten an.

Weitere Informationen finden Sie unter Cloud Monitoring-Preise.

Kontingent

DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn sich viele Cluster im selben Projekt befinden oder sich dem Limit dieses Kontingents nähern, können Sie eine Erhöhung des Kontingentlimits beantragen, bevor Sie ein Beobachtbarkeitspaket aktivieren.

DCGM-Messwerte

Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/ haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.

Zusätzlich zu den Labels für die überwachte Ressource prometheus_target haben alle erfassten DCGM-Messwerte in GKE die folgenden Labels:

GPU-Labels:

UUID: die UUID des GPU-Geräts
device: Der Name des GPU-Geräts.
gpu: Die Indexnummer als Ganzzahl des GPU-Geräts auf dem Knoten. Wenn beispielsweise 8 GPUs angehängt sind, kann dieser Wert zwischen 0 und 7 liegen.
modelName: Der Name des GPU-Gerätemodells, z. B. NVIDIA L4.

Kubernetes-Labels:

container: Der Name des Kubernetes-Containers, der das GPU-Gerät verwendet.
namespace: Der Kubernetes-Namespace des Pods und des Containers, die das GPU-Gerät verwenden.
pod: der Kubernetes-Pod, der das GPU-Gerät verwendet.

PromQL-Messwertname Cloud Monitoring-Messwertname
Art, Typ, Einheit Überwachte Ressourcen Erforderliche GKE-Version	Beschreibung
`DCGM_FI_DEV_FB_FREE` `DCGM_FI_DEV_FB_FREE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Freier Frame-Puffer in MB.
`DCGM_FI_DEV_FB_TOTAL` `DCGM_FI_DEV_FB_TOTAL/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Gesamter Framebuffer der GPU in MB.
`DCGM_FI_DEV_FB_USED` `DCGM_FI_DEV_FB_USED/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Genutzter Framebuffer in MB.
`DCGM_FI_DEV_GPU_TEMP` `DCGM_FI_DEV_GPU_TEMP/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Aktuelle Temperaturmessungen für das Gerät (in °C).
`DCGM_FI_DEV_GPU_UTIL` `DCGM_FI_DEV_GPU_UTIL/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	GPU-Auslastung in %.
`DCGM_FI_DEV_MEM_COPY_UTIL` `DCGM_FI_DEV_MEM_COPY_UTIL/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Arbeitsspeicherauslastung (in %).
`DCGM_FI_DEV_MEMORY_TEMP` `DCGM_FI_DEV_MEMORY_TEMP/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Arbeitsspeichertemperatur des Geräts (in °C).
`DCGM_FI_DEV_POWER_USAGE` `DCGM_FI_DEV_POWER_USAGE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Stromverbrauch des Geräts (in Watt).
`DCGM_FI_DEV_SM_CLOCK` `DCGM_FI_DEV_SM_CLOCK/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	SM-Taktfrequenz (in MHz).
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION` `DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers.
`DCGM_FI_PROF_DRAM_ACTIVE` `DCGM_FI_PROF_DRAM_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv Daten sendet oder empfängt.
`DCGM_FI_PROF_GR_ENGINE_ACTIVE` `DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zeit, in der die Grafik-Engine aktiv ist.
`DCGM_FI_PROF_NVLINK_RX_BYTES` `DCGM_FI_PROF_NVLINK_RX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Die Rate der aktiven NvLink-Empfangsdaten (Lesen) in Byte, einschließlich Header und Nutzlast.
`DCGM_FI_PROF_NVLINK_TX_BYTES` `DCGM_FI_PROF_NVLINK_TX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Die Rate der aktiven NvLink-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast.
`DCGM_FI_PROF_PCIE_RX_BYTES` `DCGM_FI_PROF_PCIE_RX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Die Rate der aktiven PCIe-Empfangsdaten (Lesevorgänge) in Byte, einschließlich Header und Nutzlast.
`DCGM_FI_PROF_PCIE_TX_BYTES` `DCGM_FI_PROF_PCIE_TX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Die Rate der aktiven PCIe-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast.
`DCGM_FI_PROF_PIPE_FP16_ACTIVE` `DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist.
`DCGM_FI_PROF_PIPE_FP32_ACTIVE` `DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist.
`DCGM_FI_PROF_PIPE_FP64_ACTIVE` `DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist.
`DCGM_FI_PROF_PIPE_TENSOR_ACTIVE` `DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist.
`DCGM_FI_PROF_SM_ACTIVE` `DCGM_FI_PROF_SM_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist.

Damit Sie besser nachvollziehen können, wie diese Messwerte verwendet werden können, haben wir sie in die folgenden Gruppen unterteilt:

Compute- oder Kernauslastung

Mit diesen Messwerten können Sie unterausgelastete Geräte identifizieren und entweder die Berechnung oder die GPU-Zuweisung anpassen, um die Auslastung zu optimieren. Eine niedrige Auslastung bedeutet, dass Sie möglicherweise für mehr GPU-Kapazität bezahlen, als Sie benötigen. Mithilfe dieser Messwerte können Sie Kosten sparen, indem Sie Berechnungen auf weniger Geräten zusammenfassen.

DCGM_FI_DEV_GPU_UTIL

Dieser Messwert gibt den Anteil der Zeit an, in der die GPU aktiv war.

Erwartete Nutzung:Gibt einen Überblick über die durchschnittliche GPU-Auslastung. Dieser Messwert ähnelt DCGM_FI_PROF_GR_ENGINE_ACTIVE, der ein genauerer Messwert für die GPU-Auslastung sein kann.

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Dieser Messwert gibt an, wie stark die Grafik-Engine in den einzelnen Stichprobenintervallen ausgelastet war. Der Wert wird aus der durchschnittlichen Anzahl aktiver Zyklen im Vergleich zur maximal möglichen Anzahl verfügbarer Zyklen im Stichprobenintervall abgeleitet. Wenn beispielsweise in einem Stichprobenintervall von einer Sekunde 1.000 Zyklen verfügbar waren und durchschnittlich 324 Zyklen tatsächlich aktiv waren (Arbeit verrichtet haben), wäre der resultierende Messwert 0,324. Das kann ungefähr als (0,324 × 100) = 32,4 % Auslastung interpretiert werden.

Erwartete Nutzung:Gibt einen Überblick über die durchschnittliche GPU-Auslastung. Gleichbleibend hohe Auslastungswerte deuten darauf hin, dass die GPU ein Engpass sein könnte, der zu Problemen mit der Systemleistung führt. Konstant niedrige Auslastungswerte deuten darauf hin, dass die Anwendung die verfügbare Rechenleistung nicht vollständig nutzt.

DCGM_FI_PROF_PIPE_FP16_ACTIVE, DCGM_FI_PROF_PIPE_FP32_ACTIVE, DCGM_FI_PROF_PIPE_FP64_ACTIVE, DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Diese Messwerte stellen das Verhältnis der Zyklen dar, in denen eine bestimmte GPU-Pipe aktiv ist, zu den kontinuierlich verstrichenen Spitzenzyklen.

Erwartete Nutzung:Messen Sie, wie effektiv die verschiedenen Rechenpipelines in der GPU genutzt werden.

DCGM_FI_PROF_SM_ACTIVE

Dieser Messwert gibt den Anteil der Zeit an, in der mindestens ein Warp auf einem SM(Streaming-Multiprozessor) aktiv war, gemittelt über alle SMs. Wenn die GPU beispielsweise 80 SMs hat und im Stichprobenzeitraum 16 SMs einen Warp ausgeführt haben, wäre der resultierende sm_active-Wert (16/80) = 0,20.Das bedeutet, dass 20% der verfügbaren SMs einen Warp ausgeführt haben.

Erwartete Nutzung:Gibt an, wie die GPU-Parallelität genutzt wird.

Speicherauslastung

Diese Messwerte werden hauptsächlich verwendet, um zu erkennen, wann GPU-Geräte nicht genügend Speicher für die Anwendungen haben. Für diese Anwendungen kann es sinnvoll sein, mehr GPU-Kapazität zuzuweisen.

DCGM_FI_DEV_FB_FREE, DCGM_FI_DEV_FB_USED, DCGM_FI_DEV_FB_TOTAL

Diese Messwerte beziehen sich auf den Framebuffer-Arbeitsspeicher, also den Arbeitsspeicher auf der GPU. Die Messwerte geben den freien und den verwendeten Arbeitsspeicher an, die zusammen den Gesamtarbeitsspeicher ergeben. Außerdem der insgesamt verfügbare Arbeitsspeicher.

Erwartete Nutzung:Ermitteln Sie die Muster der GPU-Arbeitsspeichernutzung. So können Sie die tatsächliche GPU-Arbeitsspeichernutzung mit der erwarteten Nutzung vergleichen, um die Speichereffizienz Ihrer Anwendung zu ermitteln.

DCGM_FI_DEV_MEM_COPY_UTIL

Dieser Messwert gibt den Prozentsatz der Zeit während des vergangenen Stichprobenzeitraums an, in der in den globalen Arbeitsspeicher (von Geräten) geschrieben oder aus diesem gelesen wurde.

Erwartete Nutzung:Ermitteln Sie die Muster der Datenübertragung zum und vom GPU-Arbeitsspeicher. Hohe Werte dieses Messwerts in Kombination mit niedrigen Werten der Messwerte für die Rechenauslastung können darauf hinweisen, dass die Arbeitsspeicherübertragung der Engpass in den ausgeführten Anwendungen ist.

DCGM_FI_PROF_DRAM_ACTIVE

Dieser Messwert stellt das Verhältnis der Zyklen dar, in denen die GPU-Arbeitsspeicherschnittstelle entweder Daten sendet oder empfängt. Dazu gehören Lade- und Speichervorgänge von Threads, die auf SMs ausgeführt werden, sowie Speicherkopien in und aus dem GPU-Speicher. Höhere Werte deuten auf einen höheren Arbeitsspeicher-Traffic hin.

Erwartete Nutzung:Dieser Messwert ähnelt dem Messwert DCGM_FI_DEV_MEM_COPY_UTIL und kann genauer sein.

E/A-Auslastung

Die folgenden Messwerte geben Aufschluss über die Datentransmission zwischen der GPU und dem Host oder zwischen mehreren GPU-Geräten. Eine Möglichkeit, diese Messwerte zu verwenden, besteht darin, zu erkennen, wann eine Anwendung die Interconnect-Verbindung überlastet. Aufgrund der inhärenten Burstiness einer solchen Übertragung kann es sich lohnen, Daten mit höherer Auflösung (z.B. eine Verteilung) zu untersuchen, um ein detaillierteres Bild des Verhaltens der Interconnect-Verbindung zu erhalten.

DCGM_FI_PROF_NVLINK_RX_BYTES, DCGM_FI_PROF_NVLINK_TX_BYTES

Diese Messwerte stellen den NVLink-Übertragungs- (tx) und -Empfangsdurchsatz (rx) in Byte dar.

Erwartete Nutzung:Verfolgen Sie die Last auf den NVLink-Anschlüssen (zwischen GPU-Chips). Wenn die Werte dieser Messwerte nahe an der insgesamt verfügbaren NVLink-Bandbreite liegen und die Messwerte für die Rechenauslastung niedrig sind, kann dies darauf hindeuten, dass der NVLink einen Engpass in den ausgeführten Anwendungen darstellt.

DCGM_FI_PROF_PCIE_RX_BYTES, DCGM_FI_PROF_PCIE_TX_BYTES

Diese Messwerte stellen den PCIe-Übertragungs- (tx) und -Empfangsdurchsatz (rx) in Byte dar. Dabei steht „tx“ für die GPU, die Daten überträgt, und „rx“ für die GPU, die Daten empfängt.

Erwartete Nutzung:Verfolgen Sie die Last auf dem PCIe-Bus (zwischen CPU und GPU). Wenn die Werte dieser Messwerte nahe an der Gesamtbandbreite des PCIe-Busses liegen und die Messwerte für die Rechenauslastung niedrig sind, kann dies darauf hindeuten, dass der PCIe-Bus einen Engpass in den ausgeführten Anwendungen darstellt.

Stromnutzung

Die folgenden Messwerte geben Aufschluss über die GPU-Leistungsnutzung, die manchmal entscheidend für die Leistung und Effizienz von Arbeitslasten ist.

DCGM_FI_DEV_GPU_TEMP

Dieser Messwert gibt die durchschnittliche Temperatur aller GPU-Kerne an.

Erwartete Nutzung:Sie können nachvollziehen, wann die GPU kurz vor einer Überhitzung steht, um dies mit der Taktfrequenzdrosselung in Verbindung zu bringen. Sie können diesen Messwert auch verwenden, um GPUs zu identifizieren, die bei geringerer Last in komplexeren Anwendungen zu Überhitzung neigen.

DCGM_FI_DEV_POWER_USAGE

Dieser Messwert gibt den GPU-Stromverbrauch in Watt an. Sie können den Stromverbrauch als Messwert für die GPU-Auslastung erfassen. NVIDIA-GPUs passen die Taktfrequenz der Engine daran an, wie viel Arbeit sie verrichten. Mit steigender Taktfrequenz (und damit Auslastung) steigt auch der Stromverbrauch.

Erwartete Nutzung:Hier sehen Sie, wie viel Strom die GPU für Nutzeranwendungen verbraucht.

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

Dieser Messwert gibt den gesamten GPU-Energieverbrauch in Millijoule (mJ) an, nachdem der Treiber zuletzt neu geladen wurde. Die für diesen Messwert berechnete Rate sollte dem Messwert für den Stromverbrauch entsprechen.

Erwartete Nutzung:Hier sehen Sie, wie viel Strom die GPU für Nutzeranwendungen verbraucht.

GPU-Leistungsmesswerte

Die GPU-Leistung gibt an, wie effektiv und effizient eine GPU eine Rechenaufgabe ausführen kann.

DCGM_FI_DEV_MEMORY_TEMP

Dieser Messwert gibt die durchschnittliche Temperatur des Arbeitsspeicherblocks an.

Erwartete Verwendung:Die Temperatur des Speicherblocks anzeigen und mit der GPU-Temperatur in Beziehung setzen.

DCGM_FI_DEV_SM_CLOCK

Dieser Messwert gibt die durchschnittliche Taktgeschwindigkeit aller SMs an. Dieser Messwert wird für ein bestimmtes Zeitintervall berechnet.

Erwartete Nutzung:Verfolgen Sie die Taktgeschwindigkeit, um eine Drosselung zu erkennen und mit der Anwendungsleistung in Beziehung zu setzen.

Nächste Schritte

Beobachtbarkeitsmesswerte aufrufen

DCGM-Messwerte erfassen und aufrufen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.