Membuat laporan bug NVIDIA untuk GPU Blackwell


Dokumen ini menjelaskan cara membuat laporan bug NVIDIA untuk jenis mesin Anda yang menggunakan GPU NVIDIA Blackwell. Jika Anda ingin mengidentifikasi jenis mesin yang menggunakan GPU NVIDIA Blackwell, lihat Model GPU.

Jika jenis mesin Anda menggunakan arsitektur GPU NVIDIA Blackwell, laporan bug NVIDIA yang dihasilkan tidak menyertakan data hardware tingkat rendah yang penting saat Anda menjalankan skrip nvidia-bug-report.sh. Data ini berisi informasi seperti status lapisan fisik koneksi NVLink, nilai register GPU internal, dan segmen diagnostik mentah dari firmware. Informasi ini penting untuk mendiagnosis masalah, terutama yang terkait dengan NVLink, yang dapat menyebabkan error Xid GPU atau penurunan performa yang tidak terselesaikan.

Membuat laporan bug NVIDIA

Untuk membuat laporan bug, selesaikan langkah-langkah berikut:

  1. Hubungkan ke instance GPU Anda. Pilih salah satu opsi berikut:

  2. Download dan instal paket MFT dengan memilih salah satu opsi berikut:

Container-Optimized OS

Jika instance Anda menggunakan Container-Optimized OS (COS) sebagai sistem operasi tamu, gunakan alat GCE COS NVIDIA Bug Report Collector open source untuk membuat laporan bug dengan MFT. Alat ini otomatis menyuntikkan modul kernel MST yang didukung dan cocok dengan kernel COS, menginstal alat ruang pengguna, membuat laporan bug, dan secara opsional mengupload hasilnya ke bucket Cloud Storage.

OS Lainnya

Untuk OS Linux lainnya, selesaikan langkah-langkah berikut:

  1. Download dan instal software NVIDIA Firmware Tools (MFT) versi 4.32.0 atau yang lebih baru dari situs NVIDIA.
  2. Instal alat. Untuk mengetahui informasi selengkapnya, lihat Kompilasi dan penginstalan dalam Dokumentasi NVIDIA Firmware Tools (MFT). Setelah Anda menginstal MFT, skrip nvidia-bug-report.sh akan otomatis menggunakan alat MFT untuk membuat laporan. Anda tidak perlu berinteraksi dengan alat MFT secara langsung.
  3. Jalankan skrip nvidia-bug-report.sh untuk membuat laporan bug. Proses ini memerlukan waktu sekitar dua menit.
  4. Ekstrak laporan.
  5. Pastikan laporan menyertakan data MFT dengan menjalankan perintah berikut pada file laporan bug yang diekstrak:
    grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT

    Outputnya mirip dengan contoh berikut:

    Starting GPU MST dump..
    ... (additional MFT data) ...