NVIDIA Data Center GPU Manager(DCGM)

NVIDIA Data Center GPU Manager 통합은 DCGM에서 주요 고급 GPU 측정항목을 수집합니다. dcgm 수신기 버전을 선택하여 두 가지 측정항목 집합 중 하나를 수집하도록 운영 에이전트를 구성할 수 있습니다.

dcgm 수신기 버전 2는 지정된 VM 인스턴스에 연결된 GPU의 성능 및 상태를 모니터링하기 위한 선별된 측정항목 집합을 제공합니다.
dcgm 수신기의 버전 1은 기본 GPU 측정항목과 함께 사용하도록 설계된 프로파일링 측정항목 모음을 제공합니다. 이러한 측정항목의 목적과 해석에 대한 자세한 내용은 DCGM 기능 개요의 프로파일링 측정항목을 참조하세요.

NVIDIA Data Center GPU Manager에 대한 자세한 내용은 DCGM 문서를 참조하세요. 이 통합은 DCGM 버전 3.1~3.3.9와 호환됩니다.

Linux 시스템에서만 이러한 측정항목을 사용할 수 있습니다. 프로파일링 측정항목은 NVIDIA GPU 모델 P100, P4에서 수집되지 않습니다.

기본 요건

NVIDIA DCGM 측정항목을 수집하려면 다음을 수행해야 합니다.

NVIDIA Datacenter 드라이버를 설치합니다.
DCGM을 설치합니다.
운영 에이전트를 설치합니다.
- 버전 1 측정항목: 운영 에이전트 버전 2.38.0 이상 운영 에이전트 버전 2.38.0 또는 버전 2.41.0 이상만 GPU 모니터링과 호환됩니다. GPU가 연결된 VM에 운영 에이전트 버전 2.39.0 및 2.40.0을 설치하지 마세요. 자세한 내용은 에이전트가 비정상 종료되고 보고서에서 NVIDIA가 표시됨을 참조하세요.
- 버전 2 측정항목: 운영 에이전트 버전 2.51.0 이상

DCGM 설치 및 설치 확인

DCGM 버전 3.1~3.3.9를 설치하고 권한이 있는 서비스로 실행해야 합니다. DCGM을 설치하려면 DCGM 문서에서 설치를 참조하세요.

DCGM이 올바르게 실행 중인지 확인하려면 다음을 수행합니다.

다음 명령어를 실행하여 DCGM 서비스 상태를 확인합니다.

sudo service nvidia-dcgm status

서비스가 실행 중이면 nvidia-dcgm 서비스가 active (running)로 나열됩니다. 다음과 유사한 결과가 출력됩니다.

● nvidia-dcgm.service - NVIDIA DCGM service
Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
Main PID: 24388 (nv-hostengine)
Tasks: 7 (limit: 14745)
CGroup: /system.slice/nvidia-dcgm.service
       └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm

다음 명령어를 실행하여 GPU 기기가 있는지 확인합니다.

dcgmi discovery --list

기기가 있으면 다음과 유사한 결과가 출력됩니다.

1 GPU found.
+--------+----------------------------------------------------------------------+
| GPU ID | Device Information                                                   |
+--------+----------------------------------------------------------------------+
| 0      | Name: NVIDIA A100-SXM4-40GB                                          |
|        | PCI Bus ID: 00000000:00:04.0                                         |
|        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
+--------+----------------------------------------------------------------------+

DCGM용 운영 에이전트 구성

운영 에이전트 구성 가이드에 따라 DCGM 서비스에서 원격 분석을 수집하는 데 필요한 요소를 추가하고 에이전트를 다시 시작합니다.

구성 예시

다음 명령어는 NVIDIA DCGM의 수신기 버전 2 측정항목을 수집하고 처리하는 구성을 만들고 운영 에이전트를 다시 시작합니다.

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.
set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
      receiver_version: 2
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

sudo service google-cloud-ops-agent restart
sleep 20

DCGM 프로파일링 측정항목만 수집하려면 receiver_version 필드의 값을 1로 바꿉니다. receiver_version 항목을 완전히 삭제할 수도 있습니다. 기본 버전은 1입니다. 두 버전을 동시에 사용할 수는 없습니다.

이러한 명령어를 실행한 후 에이전트가 다시 시작되었는지 확인할 수 있습니다. 다음 명령어를 실행하고 하위 에이전트 구성요소 '측정항목 에이전트' 및 'Logging 에이전트'가 '활성(실행 중)'으로 나열되는지 확인합니다.

sudo systemctl status google-cloud-ops-agent"*"

'libdcgm.so에서 localhost:5555에 있는 DCGM 데몬에 연결할 수 없습니다. DCGM 데몬이 실행 중인가요?'와 같은 오류 메시지가 표시되면 DGCM 서비스 버전 4.0을 설치했을 가능성이 큽니다. DCGM 공유 라이브러리의 이름이 libdgcdm.so.4로 변경되었는데, 운영 에이전트 DCGM 수신기가 이를 인식하지 못합니다. DCGM 버전 3.1~3.3.9를 사용해야 합니다.

기본 Compute Engine 서비스 계정 대신 커스텀 서비스 계정을 사용하거나 매우 오래된 Compute Engine VM이 있는 경우 운영 에이전트를 승인해야 할 수 있습니다.

측정항목 수집 구성

NVIDIA DCGM에서 측정항목을 수집하려면 NVIDIA DCGM에서 생성하는 측정항목의 수신자를 만든 후 새 수신자의 파이프라인을 만들어야 합니다.

이 수신자는 구성에서 여러 인스턴스 모니터링과 같은 여러 인스턴스의 사용을 지원하지 않습니다. 이러한 모든 인스턴스는 동일한 시계열에 기록되며, Cloud Monitoring은 이를 구분할 수 있는 방법이 없습니다.

dcgm 측정항목의 수신자를 구성하려면 다음 필드를 지정합니다.

필드	기본값	설명
`collection_interval`	`60s`	기간(예: `30s` 또는 `5m`)입니다.
`endpoint`	`localhost:5555`	`host:port` 형식의 DCGM 서비스 주소입니다.
`receiver_version`	`1`	1 또는 2입니다. 버전 2에는 더 많은 측정항목이 제공됩니다.
`type`		값은 `dcgm`여야 합니다.

모니터링 대상

다음 테이블에서는 운영 에이전트가 NVIDIA DGCM 인스턴스에서 수집하는 측정항목 목록을 보여줍니다. 모든 GPU 모델에 모든 측정항목을 사용할 수 있는 것은 아닙니다. 프로파일링 측정항목은 NVIDIA GPU 모델 P100, P4에서 수집되지 않습니다.

버전 1 측정항목

다음 측정항목은 dcgm 수신기 버전 1을 사용하여 수집됩니다.

측정항목 유형
종류, 유형 모니터링 리소스	라벨
`workload.googleapis.com/dcgm.gpu.profiling.dram_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^‡ `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† GPU 모델 P100 및 P4에서는 사용할 수 없습니다.

^‡ L4의 경우 pipe 값 fp64는 지원되지 않습니다.

버전 2 측정항목

다음 측정항목은 dcgm 수신기 버전 2를 사용하여 수집됩니다.

측정항목 유형
종류, 유형 모니터링 리소스	라벨
`workload.googleapis.com/gpu.dcgm.clock.frequency`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.clock.throttle_duration.time`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid` `violation` ^†
`workload.googleapis.com/gpu.dcgm.codec.decoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.codec.encoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.ecc_errors`
`CUMULATIVE`, `INT64` gce_instance	`error_type` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.energy_consumption`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bandwidth_utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bytes_used`
`GAUGE`, `INT64` gce_instance	`gpu_number` `model` `state` `uuid`
`workload.googleapis.com/gpu.dcgm.nvlink.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pcie.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pipe.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^§ `uuid`
`workload.googleapis.com/gpu.dcgm.sm.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.temperature`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† P100 및 P4의 경우 violation 값 power, thermal, sync_boost만 지원됩니다.

^‡ GPU 모델 P100 및 P4에서는 사용할 수 없습니다.

^§ L4의 경우 pipe 값 fp64는 지원되지 않습니다.

GPU 측정항목

또한 운영 에이전트의 기본 제공 구성은 NVIDIA Management Library(NVML)에서 보고하는 agent.googleapis.com/gpu 측정항목도 수집합니다. 이러한 측정항목을 수집하기 위해 운영 에이전트에 추가 구성이 필요하지는 않지만 연결된 GPU로 VM을 만들고 GPU 드라이버를 설치해야 합니다. 자세한 내용은 gpu 측정항목 정보를 참조하세요. dcgm 수신기 버전 1 측정항목은 이러한 기본 측정항목을 보완하도록 설계되었으며 dcgm 수신기 버전 2 측정항목은 독립형으로 설계되었습니다.

구성 확인

이 섹션에서는 NVIDIA DCGM 수신자를 올바르게 구성했는지 확인하는 방법을 설명합니다. 운영 에이전트에서 원격 분석 수집을 시작하려면 1~2분 정도 걸릴 수 있습니다.

NVIDIA DCGM 측정항목이 Cloud Monitoring으로 전송되는지 확인하려면 다음을 수행합니다.

Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.
측정항목 탐색기로 이동

검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
쿼리 빌더 창의 툴바에서 이름이 MQL 또는 PromQL인 버튼을 선택합니다.
MQL 전환 버튼에 MQL이 선택되어 있는지 확인합니다. 언어 전환 버튼은 쿼리 형식을 지정할 수 있는 동일한 툴바에 있습니다.

v1 측정항목의 경우 편집기에 다음 쿼리를 입력한 다음 쿼리 실행을 클릭합니다.
```
fetch gce_instance
| metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization'
| every 1m
```
v2 측정항목의 경우 편집기에 다음 쿼리를 입력한 다음 실행을 클릭합니다.
```
fetch gce_instance
| metric 'workload.googleapis.com/gpu.dcgm.sm.utilization'
| every 1m
```

대시보드 보기

NVIDIA DCGM 측정항목을 보려면 차트나 대시보드가 구성되어 있어야 합니다. NVIDIA DCGM 통합에는 대시보드 하나 이상이 자동으로 포함됩니다. 통합을 구성하고 운영 에이전트가 측정항목 데이터 수집을 시작한 후 모든 대시보드가 자동으로 설치됩니다.

통합을 설치하지 않고도 대시보드의 정적 미리보기를 볼 수 있습니다.

설치된 대시보드를 보려면 다음을 수행합니다.

Google Cloud 콘솔에서 대시보드 페이지로 이동합니다.
대시보드로 이동

검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
대시보드 목록 탭을 선택한 후 통합 카테고리를 선택합니다.
확인할 대시보드의 이름을 클릭합니다.

통합을 구성했지만 대시보드가 설치되지 않은 경우 운영 에이전트가 실행 중인지 확인합니다. 대시보드에 차트의 측정항목 데이터가 없으면 대시보드 설치가 실패합니다. 운영 에이전트가 측정항목 수집을 시작하면 대시보드가 자동으로 설치됩니다.

대시보드의 정적 미리보기를 보려면 다음을 수행합니다.

Google Cloud 콘솔에서 통합 페이지로 이동합니다.
통합으로 이동

검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
Compute Engine 배포 플랫폼 필터를 클릭합니다.
NVIDIA DCGM의 항목을 찾아 세부정보 보기를 클릭합니다.
정적 미리보기를 보려면 대시보드 탭을 선택합니다. 대시보드가 설치되어 있으면 대시보드 보기를 클릭하여 대시보드로 이동할 수 있습니다.

Cloud Monitoring의 대시보드에 대한 자세한 내용은 대시보드 및 차트를 참조하세요.

통합 페이지 사용에 대한 자세한 내용은 통합 관리를 참조하세요.

DCGM 제한사항 및 프로파일링 일시중지

DCGM 동시 사용은 Nsight Systems 또는 Nsight Compute와 같은 다른 NVIDIA 개발자 도구 사용과 충돌할 수 있습니다. 이 제한은 NVIDIA A100 및 이전 GPU에 적용됩니다. 자세한 내용은 DCGM 기능 개요에서 프로파일링 샘플링 속도를 참조하세요.

심각한 중단 없이 Nsight Systems와 같은 도구를 사용해야 할 경우 다음 명령어를 사용하여 측정항목 수집을 일시적으로 중지하거나 재개할 수 있습니다.

dcgmi profile --pause
dcgmi profile --resume

프로파일링이 일시중지될 때 운영 에이전트가 수집하는 DCGM 측정항목이 VM에서 배출되지 않습니다.

다음 단계

Ansible을 사용하여 운영 에이전트를 설치하고, 서드파티 애플리케이션을 구성하고, 샘플 대시보드를 설치하는 방법은 운영 에이전트를 설치하여 서드파티 애플리케이션 문제 해결 동영상을 참조하세요.