Halaman ini diterjemahkan oleh Cloud Translation API.

Memantau performa GPU di VM Windows

Windows

Untuk membantu pemanfaatan resource yang lebih baik, Anda dapat melacak tingkat penggunaan GPU instance mesin virtual (VM) Anda.

Setelah mengetahui tingkat penggunaan GPU, Anda dapat melakukan tugas-tugas seperti menyiapkan grup instance terkelola yang dapat digunakan untuk menskalakan resource secara otomatis.

Untuk meninjau metrik GPU menggunakan Cloud Monitoring, selesaikan langkah-langkah berikut:

Di setiap VM, siapkan skrip pelaporan metrik GPU. Skrip ini menginstal agen pelaporan metrik GPU. Agen ini berjalan pada interval di VM untuk mengumpulkan data GPU, dan mengirimkan data ini ke Cloud Monitoring.
Di setiap VM, jalankan skrip.
Pada setiap VM, setel agen pelaporan metrik GPU ke otomatis dimulai saat booting.
Lihat log di Google Cloud Cloud Monitoring.

Peran yang diperlukan

Untuk memantau performa GPU di VM Windows, Anda harus memberikan peran Identity and Access Management (IAM) yang diperlukan kepada prinsip berikut:

Akun layanan yang digunakan oleh instance VM
Akun pengguna Anda

Untuk memastikan bahwa Anda dan akun layanan VM memiliki izin yang diperlukan untuk memantau performa GPU di VM Windows, minta administrator untuk memberi Anda dan akun layanan VM peran IAM berikut di project:

Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1)
Monitoring Metric Writer (roles/monitoring.metricWriter)

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Administrator Anda mungkin juga dapat memberikan izin yang diperlukan kepada Anda dan akun layanan VM melalui peran khusus atau peran bawaan lainnya.

Menyiapkan skrip pelaporan metrik GPU

Persyaratan

Di setiap VM, pastikan Anda memenuhi persyaratan berikut:

Setiap VM harus memiliki GPU yang terpasang.
Setiap VM harus memiliki driver GPU yang terinstal.

Mendownload skrip

Buka terminal PowerShell sebagai administrator, lalu gunakan perintah Invoke-WebRequest untuk mendownload skrip.

Invoke-WebRequest tersedia di PowerShell 3.0 atau yang lebih baru. Google Cloud merekomendasikan agar Anda menggunakan ctrl+v untuk menempelkan blok kode yang disalin.

mkdir c:\google-scripts
cd c:\google-scripts
Invoke-Webrequest -uri https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-monitoring/main/windows/gce-gpu-monitoring-cuda.ps1 -outfile gce-gpu-monitoring-cuda.ps1

Jalankan skrip:

cd c:\google-scripts
.\gce-gpu-monitoring-cuda.ps1

Mengonfigurasi agen agar otomatis dimulai saat booting

Untuk memastikan bahwa agen pelaporan metrik GPU disiapkan untuk dijalankan saat booting sistem, gunakan perintah berikut untuk menambahkan agen ke Windows Task Scheduler.

$Trigger= New-ScheduledTaskTrigger -AtStartup
$Trigger.ExecutionTimeLimit = "PT0S"
$User= "NT AUTHORITY\SYSTEM"
$Action= New-ScheduledTaskAction -Execute "PowerShell.exe" -Argument "C:\google-scripts\gce-gpu-monitoring-cuda.ps1"
$settingsSet = New-ScheduledTaskSettingsSet
# Set the Execution Time Limit to unlimited on all versions of Windows Server
$settingsSet.ExecutionTimeLimit = 'PT0S'
Register-ScheduledTask -TaskName "MonitoringGPUs" -Trigger $Trigger -User $User -Action $Action -Force -Settings $settingsSet

Meninjau metrik di Cloud Monitoring

Di konsol Google Cloud , buka halaman Metrics Explorer.

Buka Monitoring
Luaskan menu Select a metric.
Di menu Resource, pilih VM Instance.
Di menu kategori Metric, pilih Custom.
Di menu Metric, pilih metrik yang akan dibuat diagram. Contoh custom/instance/gpu/utilization.

Catatan: Metrik kustom mungkin memerlukan waktu beberapa saat untuk ditampilkan.
Klik Apply.

Pemakaian GPU Anda akan menyerupai output berikut:

Metrik yang tersedia

Nama metrik	Deskripsi
instance/gpu/utilization	Persentase waktu selama periode sampel terakhir saat satu atau beberapa kernel dieksekusi di GPU.
instance/gpu/memory_utilization	Persen waktu selama periode sampel sebelumnya saat memori global (perangkat) sedang dibaca atau ditulis.
instance/gpu/memory_total	Total memori GPU yang terinstal.
instance/gpu/memory_used	Total memori yang dialokasikan oleh konteks aktif.
instance/gpu/memory_used_percent	Persentase total memori yang dialokasikan oleh konteks aktif. Rentang dari 0 hingga 100.
instance/gpu/memory_free	Total memori kosong.
instance/gpu/temperature	Suhu GPU inti dalam Celsius (°C).

Apa langkah selanjutnya?

Untuk menangani pemeliharaan host GPU, lihat Menangani peristiwa pemeliharaan host GPU.
Untuk meningkatkan performa jaringan, lihat Menggunakan bandwidth jaringan yang lebih tinggi.

Memantau performa GPU di VM Windows Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Peran yang diperlukan

Menyiapkan skrip pelaporan metrik GPU

Persyaratan

Mendownload skrip

Jalankan skrip:

Mengonfigurasi agen agar otomatis dimulai saat booting

Meninjau metrik di Cloud Monitoring

Metrik yang tersedia

instance/gpu/utilization

instance/gpu/memory_utilization

instance/gpu/memory_total

instance/gpu/memory_used

instance/gpu/memory_used_percent

instance/gpu/memory_free

instance/gpu/temperature

Apa langkah selanjutnya?

Memantau performa GPU di VM Windows