Vertex AI의 Cloud Monitoring 측정항목

Vertex AI는 측정항목을 Cloud Monitoring으로 내보냅니다. 또한 Vertex AI는 이러한 측정항목 중 일부를 Vertex AI Google Cloud 콘솔에 표시합니다. Cloud Monitoring을 사용하여 대시보드를 만들거나 측정항목을 기반으로 알림을 구성할 수 있습니다. 예를 들어 Vertex AI의 모델 예측 지연 시간이 너무 길 때 알림을 받을 수 있습니다.

다음 섹션에서는 Vertex AI Google Cloud 콘솔에서 제공되는 측정항목을 설명합니다. 이는 Vertex AI가 Cloud Monitoring으로 전송하는 직접 또는 계산된 측정항목일 수 있습니다.

Vertex AI가 Cloud Monitoring으로 내보내는 측정항목 목록을 보려면 Google Cloud 측정항목 모니터링 페이지의 'aiplatform' 섹션을 참조하세요. 커스텀 학습 측정항목은 해당 페이지의 'ml' 섹션에서 training로 시작하는 측정항목 유형을 참조하세요.

커스텀 학습 모니터링 측정항목

커스텀 학습을 수행할 때 각 학습 노드에 대해 다음과 같은 유형의 리소스 사용량을 모니터링할 수 있습니다.

  • 각 학습 노드의 CPU 또는 GPU 사용률
  • 각 학습 노드의 메모리 사용률
  • 네트워크 사용량(초당 전송된 바이트 및 초당 수신된 바이트)

초매개변수 조정을 사용하는 경우 각 시도에 대한 측정항목을 볼 수 있습니다.

커스텀 학습을 시작한 후 이러한 측정항목을 보려면 다음 안내를 따르세요.

  1. Google Cloud 콘솔에서 초매개변수 조정을 사용하는지 여부에 따라 다음 페이지 중 하나로 이동합니다.

  2. 커스텀 학습 리소스의 이름을 클릭합니다.

    커스텀 TrainingPipeline 리소스를 만든 경우 TrainingPipeline에서 만든 작업의 이름을 클릭합니다. 예를 들면 TRAINING_PIPELINE_NAME-custom-job 또는 TRAINING_PIPELINE_NAME-hyperparameter-tuning-job입니다.

  3. CPU, GPU 또는 네트워크 탭을 클릭하여 관심 있는 측정항목의 사용률 차트를 봅니다.

    초매개변수 조정을 사용하는 경우 초매개변수 조정 시도 테이블의 행을 클릭하여 특정 시도에 대한 측정항목을 볼 수 있습니다.

이전 측정항목을 보거나 측정항목을 보는 방법을 맞춤설정하려면 Monitoring을 사용하세요. Vertex AI는 커스텀 학습 측정항목을 프리픽스가 ml.googleapis.com/training인 측정항목 유형으로 Monitoring에 내보냅니다. 모니터링 리소스 유형은 cloudml_job입니다.

AI Platform Training은 동일한 측정항목 유형 및 리소스 유형을 사용하여 Monitoring으로 측정항목을 내보냅니다.

엔드포인트 모니터링 측정항목

모델을 엔드포인트에 배포한 후 엔드포인트를 모니터링하여 모델의 성능과 리소스 사용량을 파악할 수 있습니다. 트래픽 패턴, 오류율, 지연 시간, 리소스 사용률과 같은 측정항목을 추적하여 모델이 일관되고 예측 가능한 방식으로 요청에 응답하도록 할 수 있습니다. 예를 들어 비용 최적화를 위해 다른 머신 유형으로 모델을 다시 배포할 수 있습니다. 변경 후에는 모델을 모니터링하여 변경사항이 성능에 부정적인 영향을 미쳤는지 확인할 수 있습니다.

Cloud Monitoring에서 배포된 모델의 모니터링 리소스 유형은 aiplatform.googleapis.com/Endpoint입니다.

성능 통계

성능 측정항목을 사용하면 모델의 트래픽 패턴, 오류, 지연 시간에 대한 정보를 찾을 수 있습니다. Google Cloud 콘솔에서 다음과 같은 성능 측정항목을 볼 수 있습니다.

  • 초당 예측 수: 온라인 예측과 일괄 예측 모두에 대한 초당 예측 수. 요청당 인스턴스가 2개 이상인 경우 이 차트에서 각 인스턴스가 계산됩니다.
  • 예측 오류율: 모델이 생성하는 오류율. 오류율이 높은 경우 모델 또는 모델에 대한 요청에 문제가 있음을 나타낼 수 있습니다. 응답 코드 차트를 보고 발생하는 오류를 확인합니다.
  • 모델 지연 시간(테이블 형식 및 커스텀 모델에만 해당): 계산 수행에 소요된 시간입니다.
  • 오버헤드 지연 시간(테이블 형식 및 커스텀 모델에만 해당): 계산 외에 요청을 처리하는 데 걸리는 총 시간입니다.
  • 총 지연 시간: 요청이 서비스에 소비한 총 시간이며, 모델 지연 시간과 오버헤드 지연 시간을 더한 시간입니다.

리소스 사용량

리소스 사용량 측정항목은 모델의 CPU 사용량, 메모리 사용량, 네트워크 사용량을 추적하는 데 도움이 됩니다. Google Cloud 콘솔에서 다음과 같은 사용량 측정항목을 볼 수 있습니다.

  • 복제본 개수: 배포된 모델에서 사용하는 활성 복제본의 수입니다.
  • 복제본 대상: 배포된 모델에 필요한 활성 복제본 수입니다.
  • CPU 사용량: 배포된 모델 복제본의 현재 CPU 코어 사용률입니다. 100%는 완전히 활용된 CPU 코어 하나를 나타내므로 머신 유형에 코어가 여러 개 있으면 복제본 사용률이 100%를 초과할 수 있습니다.
  • 메모리 사용량: 배포된 모델 복제본에서 할당하고 현재 사용 중인 메모리의 양입니다.
  • 전송한 네트워크 바이트: 배포된 모델 복제본이 네트워크를 통해 전송한 바이트 수입니다.
  • 수신한 네트워크 바이트: 배포된 모델 복제본이 네트워크를 통해 수신한 바이트 수입니다.
  • 가속기 평균 가동 주기: 이전 샘플 기간 중에 하나 이상의 가속기가 실제로 처리를 수행한 시간의 평균 비율입니다.
  • 가속기 메모리 사용량: 배포된 모델 복제본에서 할당한 메모리 양입니다.

엔드포인트 모니터링 측정항목 차트 보기

  1. Google Cloud 콘솔에서 Vertex AI 엔드포인트 페이지로 이동합니다.

    엔드포인트 페이지로 이동

  2. 엔드포인트의 이름을 클릭하여 측정항목을 봅니다.

  3. 차트 간격 아래에서 성능 또는 리소스 사용량을 클릭하여 성능 또는 리소스 사용량 측정항목을 확인합니다.

    다른 차트 간격을 선택하여 1시간, 12시간, 14일과 같은 특정 기간의 측정항목 값을 볼 수 있습니다.

    엔드포인트에 여러 모델을 배포한 경우 모델을 선택하거나 선택 해제하여 특정 모델의 측정항목을 보거나 숨길 수 있습니다. 여러 모델을 선택하면 콘솔이 일부 모델 측정항목을 단일 차트로 그룹화합니다. 예를 들어 측정항목이 모델당 하나의 값만 제공하는 경우 콘솔은 모델 측정항목을 CPU 사용량과 같은 단일 차트로 그룹화합니다. 모델당 여러 개의 값을 가질 수 있는 측정항목의 경우 콘솔에서 각 모델별 차트를 제공합니다. 예를 들어 콘솔은 각 모델의 응답 코드 차트를 제공합니다.

Vertex AI Feature Store 모니터링 측정항목

특성 저장소를 빌드한 후에는 온라인 스토리지 제공 지연 시간 또는 온라인 스토리지 노드 수와 같은 성능 및 리소스 사용률을 모니터링할 수 있습니다. 예를 들어 특성 저장소의 온라인 스토리지 노드 수를 업데이트한 다음 온라인 스토리지 제공 측정항목의 변경사항을 모니터링할 수 있습니다.

Cloud Monitoring에서 특성 저장소의 모니터링 리소스 유형은 aiplatform.googleapis.com/Featurestore입니다.

측정항목

  • 요청 크기: 피처스토어의 항목 유형별 요청 크기입니다.
  • 스트리밍 쓰기를 위한 오프라인 스토리지 쓰기: 오프라인 스토리지에 대해 처리된 스트리밍 쓰기 요청 수입니다.
  • 오프라인 스토리지에 대한 스트리밍 쓰기 지연 시간: 쓰기 API 호출과 오프라인 스토리지에 쓰기 사이에 경과된 시간(초)입니다.
  • 노드 수: featurestore의 온라인 제공 노드 수입니다.
  • 지연 시간: 온라인 제공 또는 스트리밍 수집 요청이 서비스에 소비한 총 시간입니다.
  • 초당 쿼리 수: 피처스토어에서 처리하는 온라인 제공 또는 스트리밍 수집 쿼리의 수입니다.
  • 오류 백분율: 온라인 제공 또는 스트리밍 수집 요청을 처리할 때 피처스토어에서 생성하는 오류의 백분율입니다.
  • CPU 사용률: featurestore에서 할당되고 현재 온라인 스토리지에서 사용 중인 CPU 비율입니다. 온라인 제공 스토리지에 과부하가 발생하면 이 수치는 100%를 초과할 수 있습니다. featurestore의 온라인 제공 노드 수를 늘려 CPU 사용률을 줄이는 것이 좋습니다.
  • CPU 사용률 - 사용량 상위 노드: featurestore의 온라인 저장소에 있는 사용량 상위 노드의 CPU 부하입니다.
  • 총 오프라인 스토리지: featurestore의 오프라인 스토리지에 저장된 데이터 양입니다.
  • 총 온라인 스토리지: featurestore의 온라인 스토리지에 저장된 데이터 양입니다.
  • 온라인 제공 처리량: 온라인 제공 요청의 처리량(MB/초)입니다.

특성 저장소 모니터링 측정항목 차트 보기

  1. Google Cloud 콘솔에서 Vertex AI 특성 페이지로 이동합니다.

    특징 페이지로 이동

  2. 특성 저장소 열에서 특성 저장소의 이름을 클릭하여 측정항목을 봅니다.

    다른 차트 간격을 선택하여 1시간, 1일, 1주와 같은 특정 기간의 측정항목 값을 볼 수 있습니다.

    일부 온라인 제공 측정항목의 경우 특정 메서드에 대한 측정항목을 확인하여 항목 유형별로 측정항목을 분류할 수 있습니다. 예를 들어 ReadFeatureValues 메서드 또는 StreamingReadFeatureValues 메서드의 지연 시간을 확인할 수 있습니다.