Anda dapat memantau pemanfaatan, performa, dan kondisi GPU dengan mengonfigurasi GKE untuk mengirim metrik NVIDIA Data Center GPU Manager (DCGM) ke Cloud Monitoring.
Saat Anda mengaktifkan metrik DCGM, GKE akan menginstal alat DCGM-Exporter, menginstal driver GPU yang dikelola Google, dan men-deploy resource ClusterPodMonitoring untuk mengirim metrik ke Google Cloud Managed Service for Prometheus.
Anda juga dapat mengonfigurasi DCGM yang dikelola sendiri jika ingin menyesuaikan kumpulan metrik DCGM atau jika Anda memiliki cluster yang tidak memenuhi persyaratan untuk metrik DCGM terkelola.
Apa itu DCGM
NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. DCGM memberikan gambaran menyeluruh tentang penggunaan, performa, dan kondisi GPU.
- Metrik penggunaan GPU menunjukkan seberapa sibuk GPU yang dipantau dan apakah GPU tersebut digunakan secara efektif untuk memproses tugas. Hal ini mencakup metrik untuk pemrosesan inti, memori, I/O, dan penggunaan daya.
- Metrik performa GPU mengacu pada seberapa efektif dan efisien GPU dalam melakukan tugas komputasi. Ini mencakup metrik untuk kecepatan clock dan temperatur.
- Metrik GPU I/0 seperti NVlink dan PCIe mengukur bandwidth transfer data.
Sebelum memulai
Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:
- Aktifkan Google Kubernetes Engine API. Mengaktifkan Google Kubernetes Engine API
- Jika ingin menggunakan Google Cloud CLI untuk tugas ini,
instal lalu
initialize
gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan
gcloud components update
.
Persyaratan untuk metrik NVIDIA Data Center GPU Manager (DCGM)
Untuk mengumpulkan metrik NVIDIA Data Center GPU Manager (DCGM), cluster GKE Anda harus memenuhi persyaratan berikut:
- GKE versi 1.30.1-gke.1204000 atau yang lebih baru
- Kumpulan metrik sistem harus diaktifkan
- Pengumpulan terkelola Google Cloud Managed Service for Prometheus harus diaktifkan
- Kumpulan node harus menjalankan driver GPU yang dikelola GKE. Artinya,
Anda harus membuat kumpulan node menggunakan
default
ataulatest
untuk--gpu-driver-version
. - Metrik pembuatan profil hanya dikumpulkan untuk GPU NVIDIA H100 80 GB.
Mengonfigurasi kumpulan metrik DCGM
Anda dapat mengaktifkan GKE untuk mengumpulkan metrik DCGM untuk cluster yang ada menggunakan Konsol Google Cloud, gcloud CLI, atau Terraform.
Konsol
-
Anda harus menggunakan Default atau Terbaru untuk Penginstalan Driver GPU.
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Klik nama cluster Anda.
Di samping Cloud Monitoring, klik edit.
Pilih
SYSTEM
danDCGM
.Klik Simpan.
gcloud
Buat kumpulan node GPU.
Anda harus menggunakan
default
ataulatest
untuk--gpu-driver-version
.Update cluster Anda:
gcloud container clusters update CLUSTER_NAME \ --location=COMPUTE_LOCATION \ --enable-managed-prometheus \ --monitoring=SYSTEM,DCGM
Ganti kode berikut:
CLUSTER_NAME
: nama cluster yang ada.COMPUTE_LOCATION
: lokasi Compute Engine untuk cluster.
Terraform
Untuk mengonfigurasi pengumpulan metrik DCGM menggunakan
Terraform, lihat blok monitoring_config
di
registry Terraform untuk google_container_cluster
.
Untuk mengetahui informasi umum tentang penggunaan Google Cloud dengan Terraform, lihat Terraform dengan Google Cloud.
Menggunakan metrik DCGM
Anda dapat melihat metrik DCGM menggunakan dasbor di Google Cloud Console atau langsung di halaman ringkasan dan detail cluster. Untuk mengetahui informasi selengkapnya, baca artikel Melihat metrik kemampuan observasi.
Anda dapat melihat metrik menggunakan dasbor metrik Grafana DCGM. Untuk mengetahui informasi selengkapnya, lihat Membuat kueri menggunakan Grafana. Jika Anda mengalami error, lihat Kompatibilitas API.
Harga
Metrik DCGM menggunakan Google Cloud Managed Service for Prometheus untuk memuat metrik ke Cloud Monitoring. Biaya Cloud Monitoring untuk penyerapan metrik ini didasarkan pada jumlah sampel yang diserap. Namun, metrik ini tidak dikenai biaya untuk cluster terdaftar yang termasuk dalam project yang mengaktifkan edisi GKE Enterprise.
Untuk mengetahui informasi lebih lanjut, lihat harga Cloud Monitoring.
Kuota
Metrik DCGM menggunakan kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring API. Sebelum mengaktifkan paket metrik, periksa puncak penggunaan kuota tersebut baru-baru ini. Jika memiliki banyak cluster dalam project yang sama atau sudah mendekati batas kuota tersebut, Anda dapat meminta penambahan batas kuota sebelum mengaktifkan paket kemampuan observasi.
Langkah selanjutnya
- Pelajari cara Melihat metrik kemampuan observasi.