本文說明如何為使用 NVIDIA Blackwell GPU 的機器類型建立 NVIDIA 錯誤報告。如要瞭解哪些機器類型使用 NVIDIA Blackwell GPU,請參閱「GPU 型號」。
如果機器類型使用 NVIDIA Blackwell GPU 架構,執行 nvidia-bug-report.sh 指令碼時,產生的 NVIDIA 錯誤報告不會包含重要的低階硬體資料。這項資料包含 NVLink 連線的實體層狀態、內部 GPU 暫存器值,以及韌體中的原始診斷區隔等資訊。這項資訊對於診斷問題至關重要,尤其是與 NVLink 相關的問題,這類問題可能導致 GPU Xid 錯誤或效能下降問題無法解決。
產生 NVIDIA 錯誤報告
如要產生錯誤報告,請完成下列步驟:
連線至 GPU 執行個體。您可以選擇下列任一選項:
選取下列其中一個選項,下載並安裝 MFT 套件:
Container-Optimized OS
如果執行個體使用 Container-Optimized OS (COS) 做為客體作業系統,請使用開放原始碼的 GCE COS NVIDIA Bug Report Collector 工具,透過 MFT 產生錯誤報告。這項工具會自動插入與 COS 核心相符的支援 MST 核心模組、安裝使用者空間工具、產生錯誤報告,並視需要將結果上傳至 Cloud Storage bucket。
其他 OS
如要使用其他 Linux OS,請完成下列步驟:
- 從 NVIDIA 網站下載並安裝 NVIDIA 韌體工具 (MFT) 軟體 4.32.0 以上版本。
- 安裝工具。詳情請參閱 NVIDIA 韌體工具 (MFT) 說明文件中的「Compilation and installation」。安裝 MFT 後,nvidia-bug-report.sh 指令碼會自動使用 MFT 工具產生報表。您不需要直接與 MFT 工具互動。
- 執行
nvidia-bug-report.sh
指令碼,產生錯誤報告。這個過程大約需要兩分鐘。 - 擷取報表。
- 在擷取的錯誤報告檔案中執行下列指令,確認報表包含 MFT 資料:
grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT
輸出結果會與下列範例相似:
Starting GPU MST dump.. ... (additional MFT data) ...