Sie können GPU-Auslastung, Leistung und Zustand überwachen, indem Sie KGE zum Senden von NVIDIA Data Center GPU Manager-Messwerte (DCGM) zu Cloud Monitoring konfigurieren.
Wenn Sie DCGM-Messwerte aktivieren, installiert GKE das DCGM-Exporter-Tool, installiert von Google verwaltete GPU-Treiber und stellt eine ClusterPodMonitoring-Ressource bereit, um Messwerte an Google Cloud Managed Service for Prometheus zu senden. Für neue GKE-Cluster, die mit Version 1.32.1-gke.1357000 oder höher erstellt wurden, ist das DCGM-Messwertepaket standardmäßig aktiviert. Bei Clustern mit früheren Versionen können Sie die Erfassung von DCGM-Messwerten über die Google Cloud Console, die gcloud CLI oder Terraform aktivieren.
Sie können auch selbstverwaltetes DCGMkonfigurieren, wenn Sie die DCGM-Messwerte anpassen möchten oder wenn Sie einen Cluster haben, der die Anforderungen für verwaltete DCGM-Messwerte nicht erfüllt.
Was ist DCGM?
NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. DCGM stellt verschiedene Observability-Strukturen und ‑Zähler über fields
bereit. Jedes Feld hat eine symbolische Kennung und eine Feldnummer.
Eine vollständige Liste finden Sie unter NVIDIA DCGM list of Field IDs.
Wenn Sie DCGM-Messwerte in GKE aktivieren, sind die unterstützten Messwerte automatisch in Cloud Monitoring verfügbar. Diese Messwerte bieten eine umfassende Ansicht von GPU-Auslastung, -Leistung und -Zustand.
- GPU-Auslastungsmesswerte geben an, wie stark die überwachte GPU ausgelastet ist und ob sie effektiv für die Verarbeitung von Aufgaben genutzt wird. Dazu gehören Messwerte für die Verarbeitung von Kernen, Arbeitsspeicher, E/A und Stromverbrauch.
- GPU-Leistungsmesswerte geben an, wie effektiv und effizient eine GPU eine Rechenaufgabe ausführen kann. Dazu gehören Messwerte für Taktgeschwindigkeit und Temperatur.
- GPU-E/A-Messwerte wie NVlink und PCIe messen die Datenübertragungsbandbreite.
Hinweise
Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:
- Aktivieren Sie die Google Kubernetes Engine API. Google Kubernetes Engine API aktivieren
- Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit
gcloud components update
ab.
Anforderungen für NVIDIA Data Center GPU Manager-Messwerte (DCGM)
Zum Erfassen von NVIDIA Data Center GPU Manager-Messwerten (DCGM) muss Ihr GKE-Cluster die folgenden Anforderungen erfüllen:
- Auf den Clustern muss die GKE-Version 1.30.1-gke.1204000 oder höher ausgeführt werden.
- Systemmesswerte-Sammlung muss aktiviert sein
- Die von Google Cloud Managed Service for Prometheus-verwaltete Erfassung muss aktiviert sein.
- Auf den Knotenpools müssen von der GKE verwaltete GPU-Treiber ausgeführt werden. Das bedeutet, dass Sie Ihre Knotenpools mit
default
oderlatest
für--gpu-driver-version
erstellen müssen. - In GKE-Version 1.32.0-gke.1764000 oder höher werden Profiling-Messwerte für alle von GKE unterstützten GPU-Typen erfasst. In früheren GKE-Versionen werden Profilmesswerte nur für NVIDIA H100-GPUs mit 80 GB erfasst.
Beschränkungen
Wenn Sie ein selbst bereitgestelltes Messwertpaket des NVIDIA Data Center GPU Manager (DCGM) ausführen, dürfen Sie diese nicht mehr erfassen, bevor Sie die Messwerte des verwalteten NVIDIA Data Center GPU Manager (DCGM) aktivieren. Andernfalls kann es zu doppelten oder falschen Messwerten kommen.
Verwaltete DCGM-Messwerte, einschließlich der zugrunde liegenden Manifeste und Container-Images, sind nur für GKE-Cluster vorgesehen. Verwenden Sie verwaltete DCGM-Messwerte nicht eigenständig oder außerhalb von GKE.
Erfassung von DCGM-Messwerten konfigurieren
Sie können GKE so konfigurieren, dass DCGM-Messwerte für einen vorhandenen Cluster erfasst werden. Verwenden Sie dazu die Google Cloud Console, die gcloud CLI oder Terraform.
Console
Erstellen Sie einen GPU-Knotenpool.
Sie müssen entweder Standard oder Neueste für die Installation des GPU-Treibers verwenden.
Öffnen Sie in der Google Cloud Console die Seite Google Kubernetes Engine.
Klicken Sie auf den Namen Ihres Clusters.
Klicken Sie neben Cloud Monitoring auf edit.
Wählen Sie
SYSTEM
undDCGM
aus.Klicken Sie auf „Speichern“.
gcloud
Erstellen Sie einen GPU-Knotenpool.
Sie müssen entweder
default
oderlatest
für--gpu-driver-version
verwenden.Cluster aktualisieren:
gcloud container clusters update CLUSTER_NAME \ --location=COMPUTE_LOCATION \ --enable-managed-prometheus \ --monitoring=SYSTEM,DCGM
Ersetzen Sie Folgendes:
CLUSTER_NAME
: der Name des vorhandenen Clusters.COMPUTE_LOCATION
: der Compute Engine-Standort des Clusters.
Terraform
Informationen zum Konfigurieren der Erfassung von Messwerten mit Terraform finden Sie im Block monitoring_config
in der Terraform-Registry für google_container_cluster
.
Allgemeine Informationen zur Verwendung von Google Cloud mit Terraform finden Sie unter Terraform mit Google Cloud.
DCGM-Messwerte verwenden
Sie können DCGM-Messwerte über die Dashboards in derGoogle Cloud -Konsole oder direkt auf den Seiten „Clusterübersicht“ und „Clusterdetails“ aufrufen. Weitere Informationen finden Sie unter Beobachtbarkeitsmesswerte aufrufen.
Messwerte lassen sich mit dem Grafana DCGM-Messwerte-Dashboard anzeigen. Weitere Informationen finden Sie unter Abfrage mit Grafana. Wenn Fehler auftreten, lesen Sie den Abschnitt API-Kompatibilität.
Preise
DCGM-Messwerte nutzen Google Cloud Managed Service for Prometheus zum Laden von Messwerten in Cloud Monitoring. In Cloud Monitoring fallen Gebühren für die Aufnahme dieser Messwerte basierend auf der Anzahl der aufgenommenen Stichproben an. Für registrierte Cluster, die zu einem Projekt gehören, bei denen GKE Enterprise-Edition aktiviert ist, fallen keine Kosten an.
Weitere Informationen finden Sie unter Cloud Monitoring-Preise.
Kontingent
DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn sich viele Cluster im selben Projekt befinden oder sich dem Limit dieses Kontingents nähern, können Sie eine Erhöhung des Kontingentlimits beantragen, bevor Sie ein Beobachtbarkeitspaket aktivieren.
DCGM-Messwerte
Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/
haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.
Zusätzlich zu den Labels für die überwachte Ressource prometheus_target
haben alle erfassten DCGM-Messwerte in GKE die folgenden Labels:
GPU-Labels:
UUID
: die UUID des GPU-Gerätsdevice
: Der Name des GPU-Geräts.-
gpu
: Die Indexnummer als Ganzzahl des GPU-Geräts auf dem Knoten. Wenn beispielsweise 8 GPUs angehängt sind, kann dieser Wert zwischen0
und7
liegen. modelName
: Der Name des GPU-Gerätemodells, z. B.NVIDIA L4
.
Kubernetes-Labels:
container
: Der Name des Kubernetes-Containers, der das GPU-Gerät verwendet.-
namespace
: Der Kubernetes-Namespace des Pods und des Containers, die das GPU-Gerät verwenden. pod
: Der Kubernetes-Pod, der das GPU-Gerät verwendet.
PromQL-Messwertname Cloud Monitoring-Messwertname |
|
---|---|
Art, Typ, Einheit
Überwachte Ressourcen Erforderliche GKE-Version |
Beschreibung |
DCGM_FI_DEV_FB_FREE DCGM_FI_DEV_FB_FREE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Freier Frame-Puffer in MB. |
DCGM_FI_DEV_FB_TOTAL DCGM_FI_DEV_FB_TOTAL/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Gesamter Framebuffer der GPU in MB. |
DCGM_FI_DEV_FB_USED DCGM_FI_DEV_FB_USED/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Genutzter Framebuffer in MB. |
DCGM_FI_DEV_GPU_TEMP DCGM_FI_DEV_GPU_TEMP/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Aktuelle Temperaturmessungen für das Gerät (in °C). |
DCGM_FI_DEV_GPU_UTIL DCGM_FI_DEV_GPU_UTIL/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
GPU-Auslastung in %. |
DCGM_FI_DEV_MEM_COPY_UTIL DCGM_FI_DEV_MEM_COPY_UTIL/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Arbeitsspeicherauslastung (in %). |
DCGM_FI_DEV_MEMORY_TEMP DCGM_FI_DEV_MEMORY_TEMP/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Arbeitsspeichertemperatur des Geräts (in °C). |
DCGM_FI_DEV_POWER_USAGE DCGM_FI_DEV_POWER_USAGE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Stromverbrauch des Geräts (in Watt). |
DCGM_FI_DEV_SM_CLOCK DCGM_FI_DEV_SM_CLOCK/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
SM-Taktfrequenz (in MHz). |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers. |
DCGM_FI_PROF_DRAM_ACTIVE DCGM_FI_PROF_DRAM_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv Daten sendet oder empfängt. |
DCGM_FI_PROF_GR_ENGINE_ACTIVE DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zeit, in der die Grafik-Engine aktiv ist. |
DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_RX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Die Rate der aktiven NvLink-Empfangsdaten (Lesen) in Byte, einschließlich Header und Nutzlast. |
DCGM_FI_PROF_NVLINK_TX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Die Rate der aktiven NvLink-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast. |
DCGM_FI_PROF_PCIE_RX_BYTES DCGM_FI_PROF_PCIE_RX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Die Rate der aktiven PCIe-Empfangsdaten (Lesevorgänge) in Byte, einschließlich Header und Nutzlast. |
DCGM_FI_PROF_PCIE_TX_BYTES DCGM_FI_PROF_PCIE_TX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Die Rate der aktiven PCIe-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast. |
DCGM_FI_PROF_PIPE_FP16_ACTIVE DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist. |
DCGM_FI_PROF_PIPE_FP32_ACTIVE DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist. |
DCGM_FI_PROF_PIPE_FP64_ACTIVE DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist. |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist. |
DCGM_FI_PROF_SM_ACTIVE DCGM_FI_PROF_SM_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist. |
Damit Sie besser nachvollziehen können, wie diese Messwerte verwendet werden können, haben wir sie in die folgenden Gruppen unterteilt:
Compute- oder Kernauslastung
Mit diesen Messwerten können Sie unterausgelastete Geräte identifizieren und entweder die Berechnung oder die GPU-Zuweisung anpassen, um die Auslastung zu optimieren. Eine niedrige Auslastung bedeutet, dass Sie möglicherweise für mehr GPU-Kapazität bezahlen, als Sie benötigen. Mithilfe dieser Messwerte können Sie Kosten sparen, indem Sie Berechnungen auf weniger Geräten zusammenfassen.
DCGM_FI_DEV_GPU_UTIL
Dieser Messwert gibt den Anteil der Zeit an, in der die GPU aktiv war.
Erwartete Nutzung:Gibt einen Überblick über die durchschnittliche GPU-Auslastung. Dieser Messwert ähnelt DCGM_FI_PROF_GR_ENGINE_ACTIVE, der ein genauerer Messwert für die GPU-Auslastung sein kann.
DCGM_FI_PROF_GR_ENGINE_ACTIVE
Dieser Messwert gibt an, wie stark die Grafik-Engine in den einzelnen Stichprobenintervallen ausgelastet war. Der Wert wird aus der durchschnittlichen Anzahl aktiver Zyklen im Vergleich zur maximal möglichen Anzahl verfügbarer Zyklen im Stichprobenintervall abgeleitet. Wenn beispielsweise in einem Stichprobenintervall von einer Sekunde 1.000 Zyklen verfügbar waren und durchschnittlich 324 Zyklen tatsächlich aktiv waren (Arbeit verrichtet haben), wäre der resultierende Messwert 0,324. Das kann ungefähr als (0,324 × 100) = 32,4 % Auslastung interpretiert werden.
Erwartete Nutzung:Gibt einen Überblick über die durchschnittliche GPU-Auslastung. Gleichbleibend hohe Auslastungswerte deuten darauf hin, dass die GPU ein Engpass sein könnte, der zu Problemen mit der Systemleistung führt. Konstant niedrige Auslastungswerte deuten darauf hin, dass die Anwendung die verfügbare Rechenleistung nicht vollständig nutzt.
DCGM_FI_PROF_PIPE_FP16_ACTIVE
, DCGM_FI_PROF_PIPE_FP32_ACTIVE
,
DCGM_FI_PROF_PIPE_FP64_ACTIVE
, DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
Diese Messwerte stellen das Verhältnis der Zyklen dar, in denen eine bestimmte GPU-Pipe aktiv ist, zu den kontinuierlich verstrichenen Spitzenzyklen.
Erwartete Nutzung:Messen Sie, wie effektiv die verschiedenen Rechenpipelines in der GPU genutzt werden.
DCGM_FI_PROF_SM_ACTIVE
Dieser Messwert gibt den Anteil der Zeit an, in der mindestens ein Warp auf einem SM(Streaming-Multiprozessor) aktiv war, gemittelt über alle SMs. Wenn die GPU beispielsweise 80 SMs hat und im Stichprobenzeitraum 16 SMs einen Warp ausgeführt haben, wäre der resultierende sm_active
-Wert (16/80) = 0,20.Das bedeutet, dass 20% der verfügbaren SMs einen Warp ausgeführt haben.
Erwartete Nutzung:Gibt an, wie die GPU-Parallelität genutzt wird.
Speicherauslastung
Diese Messwerte werden hauptsächlich verwendet, um zu erkennen, wann GPU-Geräte nicht genügend Speicher für die Anwendungen haben. Für diese Anwendungen kann es sinnvoll sein, mehr GPU-Kapazität zuzuweisen.
DCGM_FI_DEV_FB_FREE
, DCGM_FI_DEV_FB_USED
, DCGM_FI_DEV_FB_TOTAL
Diese Messwerte beziehen sich auf den Framebuffer-Arbeitsspeicher, also den Arbeitsspeicher auf der GPU. Die Messwerte geben den freien und den verwendeten Arbeitsspeicher an, die zusammen den Gesamtarbeitsspeicher ergeben. Außerdem der insgesamt verfügbare Arbeitsspeicher.
Erwartete Nutzung:Ermitteln Sie die Muster der GPU-Arbeitsspeichernutzung. So können Sie die tatsächliche GPU-Arbeitsspeichernutzung mit der erwarteten Nutzung vergleichen, um die Speichereffizienz Ihrer Anwendung zu ermitteln.
DCGM_FI_DEV_MEM_COPY_UTIL
Dieser Messwert gibt den Prozentsatz der Zeit während des vergangenen Stichprobenzeitraums an, in der in den globalen Arbeitsspeicher (von Geräten) geschrieben oder aus diesem gelesen wurde.
Erwartete Nutzung:Ermitteln Sie die Muster der Datenübertragung zum und vom GPU-Arbeitsspeicher. Hohe Werte dieses Messwerts in Kombination mit niedrigen Werten der Messwerte für die Rechenauslastung können darauf hinweisen, dass die Arbeitsspeicherübertragung der Engpass in den ausgeführten Anwendungen ist.
DCGM_FI_PROF_DRAM_ACTIVE
Dieser Messwert stellt das Verhältnis der Zyklen dar, in denen die GPU-Arbeitsspeicherschnittstelle entweder Daten sendet oder empfängt. Dazu gehören Lade- und Speichervorgänge von Threads, die auf SMs ausgeführt werden, sowie Speicherkopien in den und aus dem GPU-Speicher. Höhere Werte deuten auf einen höheren Arbeitsspeicher-Traffic hin.
Erwartete Nutzung:Dieser Messwert ähnelt dem Messwert DCGM_FI_DEV_MEM_COPY_UTIL
und kann genauer sein.
E/A-Auslastung
Die folgenden Messwerte geben Aufschluss über die Datentransmission zwischen der GPU und dem Host oder zwischen mehreren GPU-Geräten. Eine Möglichkeit, diese Messwerte zu verwenden, besteht darin, zu erkennen, wann eine Anwendung die Interconnect-Verbindung überlastet. Aufgrund der inhärenten Burstiness einer solchen Übertragung kann es sich lohnen, Daten mit höherer Auflösung (z.B. eine Verteilung) zu untersuchen, um ein detaillierteres Bild des Verhaltens der Interconnect-Verbindung zu erhalten.
DCGM_FI_PROF_NVLINK_RX_BYTES
, DCGM_FI_PROF_NVLINK_TX_BYTES
Diese Messwerte stellen den NVLink-Übertragungs- (tx) und ‑Empfangsdurchsatz (rx) in Byte dar.
Erwartete Nutzung:Verfolgen Sie die Last auf den NVLink-Anschlüssen (zwischen GPU-Chips). Wenn die Werte dieser Messwerte nahe an der insgesamt verfügbaren NVLink-Bandbreite liegen und die Messwerte für die Rechenauslastung niedrig sind, kann dies darauf hindeuten, dass der NVLink einen Engpass in den ausgeführten Anwendungen darstellt.
DCGM_FI_PROF_PCIE_RX_BYTES
, DCGM_FI_PROF_PCIE_TX_BYTES
Diese Messwerte stellen den PCIe-Übertragungs- (tx) und -Empfangsdurchsatz (rx) in Byte dar. Bei tx überträgt die GPU Daten und bei rx empfängt die GPU Daten.
Erwartete Nutzung:Verfolgen Sie die Last auf dem PCIe-Bus (zwischen CPU und GPU). Wenn die Werte dieser Messwerte nahe an der Gesamtbandbreite des PCIe-Busses liegen und die Messwerte für die Rechenauslastung niedrig sind, kann dies darauf hindeuten, dass der PCIe-Bus einen Engpass in den ausgeführten Anwendungen darstellt.
Stromnutzung
Die folgenden Messwerte geben Aufschluss über die GPU-Leistungsnutzung, die manchmal entscheidend für die Leistung und Effizienz von Arbeitslasten ist.
DCGM_FI_DEV_GPU_TEMP
Dieser Messwert gibt die durchschnittliche Temperatur aller GPU-Kerne an.
Erwartete Nutzung:Überwachen, wann die GPU kurz vor einer Überhitzung steht, hauptsächlich zur Korrelation mit der Taktfrequenzdrosselung. Sie können diesen Messwert auch verwenden, um GPUs zu identifizieren, die bei geringerer Last in komplexeren Anwendungen zu Überhitzung neigen.
DCGM_FI_DEV_POWER_USAGE
Dieser Messwert gibt den GPU-Stromverbrauch in Watt an. Sie können den Stromverbrauch als Messwert für die GPU-Auslastung erfassen. NVIDIA-GPUs passen die Taktfrequenz der Engine daran an, wie viel Arbeit sie verrichten. Mit steigender Taktfrequenz (und damit Auslastung) steigt auch der Stromverbrauch.
Erwartete Nutzung:Hier sehen Sie, wie viel Strom die GPU für Nutzeranwendungen verbraucht.
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
Dieser Messwert gibt den gesamten GPU-Energieverbrauch in Millijoule (mJ) seit dem letzten Neuladen des Treibers an. Die für diesen Messwert berechnete Rate sollte dem Messwert für den Stromverbrauch entsprechen.
Erwartete Nutzung:Hier sehen Sie, wie viel Strom die GPU für Nutzeranwendungen verbraucht.
GPU-Leistungsmesswerte
Die GPU-Leistung gibt an, wie effektiv und effizient eine GPU eine Rechenaufgabe ausführen kann.
DCGM_FI_DEV_MEMORY_TEMP
Dieser Messwert gibt die durchschnittliche Temperatur des Speicherblocks an.
Erwartete Verwendung:Die Temperatur des Speicherblocks anzeigen und mit der GPU-Temperatur in Beziehung setzen.
DCGM_FI_DEV_SM_CLOCK
Dieser Messwert gibt die durchschnittliche Taktgeschwindigkeit aller SMs an. Dieser Messwert wird für ein bestimmtes Zeitintervall berechnet.
Erwartete Nutzung:Verfolgen Sie die Taktgeschwindigkeit, um eine Drosselung zu erkennen und mit der Anwendungsleistung in Beziehung zu setzen.