Vertex AI 的 Cloud Monitoring 指標

Vertex AI 會將指標匯出至 Cloud Monitoring。Vertex AI 也會在 Vertex AI 控制台 Google Cloud 中顯示部分指標。您可以使用 Cloud Monitoring 建立資訊主頁,或根據指標設定快訊。舉例來說,如果模型在 Vertex AI 中的預測延遲時間過高,您就會收到警示。

以下各節說明 Vertex AI 控制台 Google Cloud 提供的指標,這些指標可能是 Vertex AI 傳送至 Cloud Monitoring 的直接或計算指標。

如要查看 Vertex AI 匯出至 Cloud Monitoring 的大部分指標清單,請參閱「Monitoring」 Google Cloud指標頁面「aiplatform」 專區。如需瞭解自訂訓練指標,請參閱該頁面「ml」部分中以 training 開頭的指標類型。

自訂訓練監控指標

執行自訂訓練時,您可以監控每個訓練節點的下列資源用量類型:

  • 每個訓練節點的 CPU 或 GPU 使用率
  • 每個訓練節點的記憶體使用率
  • 網路用量 (每秒傳送的位元組數和每秒接收的位元組數)

如果您使用超參數調整,可以查看每次試驗的指標。

如要在啟動自訂訓練後查看這些指標,請按照下列步驟操作:

  1. 視您是否使用超參數調整功能,在 Google Cloud 控制台中前往下列任一頁面:

  2. 按一下自訂訓練資源的名稱。

    如果您建立了自訂 TrainingPipeline 資源,請按一下 TrainingPipeline 建立的工作名稱,例如 TRAINING_PIPELINE_NAME-custom-jobTRAINING_PIPELINE_NAME-hyperparameter-tuning-job

  3. 按一下「CPU」、「GPU」或「Network」(網路) 分頁,查看您感興趣的指標的利用率圖表。

    如果您使用超參數調整功能,可以點選「超參數調整試驗」表格中的一列,查看特定試驗的指標。

如要查看較舊的指標,或自訂指標查看方式,請使用 Monitoring。Vertex AI 會將自訂訓練指標匯出至監控,並以指標類型 (前置字串為 ml.googleapis.com/training) 的形式呈現。受控資源類型為 cloudml_job

請注意,AI Platform 訓練會使用相同的指標類型和資源類型,將指標匯出至 Monitoring。

端點監控指標

將模型部署至端點後,您可以監控端點,瞭解模型的效能和資源使用情形。您可以追蹤流量模式、錯誤率、延遲時間和資源使用率等指標,確保模型能以一致且可預測的方式回應要求。舉例來說,您可以使用不同的機器類型重新部署模型,以便降低成本。變更完成後,您可以監控模型,檢查變更是否會對其效能造成負面影響。

在 Cloud Monitoring 中,已部署模型的受控資源類型為 aiplatform.googleapis.com/Endpoint

成效指標

效能指標可協助您找出模型的流量模式、錯誤和延遲時間相關資訊。您可以在 Google Cloud 主控台中查看下列成效指標。

  • 每秒預測次數:線上和批次預測的每秒預測次數。如果每項要求有多個例項,這張圖表會計算每個例項。
  • 預測錯誤百分比:模型產生錯誤的頻率。錯誤率高,可能表示模型或對模型的要求有問題。查看回應代碼圖表,判斷發生哪些錯誤。
  • 模型延遲時間 (僅限表格型和自訂模型):執行運算所需的時間。
  • 額外延遲時間 (僅限表格和自訂模型):處理要求所花費的總時間 (不含運算時間)。
  • 總延遲時間:要求在服務中花費的總時間,即模型延遲時間加上額外延遲時間。

資源使用情況

資源使用量指標可協助您追蹤模型的 CPU 用量、記憶體用量和網路用量。您可以在Google Cloud 主控台中查看下列使用量指標。

  • 副本數量:已部署模型使用的有效副本數量。
  • 備用資源目標:部署模型所需的有效備用資源數量。
  • CPU 用量:已部署模型複本目前的 CPU 核心使用率。100% 代表一個 CPU 核心已達到完全使用率,因此如果副本的機器類型有多個核心,可能會達到超過 100% 的使用率。
  • 記憶體用量:已部署模型副本分配的記憶體量,以及目前正在使用的記憶體量。
  • 傳送的網路位元組數:已部署模型複本透過網路傳送的位元組數。
  • 已接收的網路位元組數:已部署模型複本透過網路接收的位元組數。
  • 加速器平均任務週期:在過去取樣期間,一或多個加速器主動處理作業的平均時間占比。
  • 加速器記憶體用量:已部署模型備用資源所分配的記憶體量。

查看端點監控指標圖表

  1. 前往Google Cloud 控制台的 Vertex AI「Endpoints」頁面。

    前往「Endpoints」(端點) 頁面

  2. 按一下端點名稱,即可查看相關指標。

  3. 在圖表間隔下方,按一下「效能」或「資源使用率」,即可查看效能或資源使用率指標。

    您可以選取不同的圖表間隔,查看特定時間範圍 (例如 1 小時、12 小時或 14 天) 的指標值。

    如果您已將多個模型部署至端點,可以選取或取消選取模型,查看或隱藏特定模型的指標。如果您選取多個模型,控制台會將部分模型指標分組至單一圖表。舉例來說,如果指標每個模型只提供一個值,控制台會將模型指標分組為單一圖表 (例如 CPU 使用率)。對於每個模型可有多個值的指標,控制台會為每個模型提供圖表。舉例來說,控制台會為每個模型提供回應代碼圖表。

Vertex AI 特徵儲存庫 (舊版) 監控指標

使用 Vertex AI 特徵儲存庫 (舊版) 建構特徵儲存庫後,您可以監控其效能和資源使用率,例如線上儲存空間服務延遲時間或線上儲存空間節點數。舉例來說,您可能想在更新特徵儲存庫的線上儲存空間節點數後,監控線上儲存空間服務指標的變化。

在 Cloud Monitoring 中,Featurestore 的受控資源類型為 aiplatform.googleapis.com/Featurestore

指標

  • 要求大小:特徵儲存庫中依實體類型劃分的請求大小。
  • 為串流寫入作業寫入離線儲存空間:為離線儲存空間處理的串流寫入要求數量。
  • 寫入離線儲存空間的串流延遲時間:呼叫寫入 API 和寫入離線儲存空間之間的時間間隔 (以秒為單位)。
  • 節點數:特徵儲存庫的線上供應節點數量。
  • 延遲時間:線上服務或串流攝入要求在服務中花費的總時間。
  • 每秒查詢次數:功能存取區處理的線上服務或串流擷取查詢次數。
  • 錯誤百分比:在處理線上放送或串流攝入要求時,featurestore 產生的錯誤百分比。
  • CPU 使用率:Featurestore 分配給線上儲存空間使用的 CPU 比例。如果線上服務儲存空間超載,這個數字可能會超過 100%。建議您增加 featurestore 的線上服務節點數量,以降低 CPU 使用率。
  • CPU 使用率 - 最繁忙的節點:Featurestore 線上儲存空間中最繁忙節點的 CPU 負載。
  • 總離線儲存空間:儲存在 Featurestore 離線儲存空間中的資料量。
  • 線上儲存空間總量:儲存在特徵資料儲存庫的線上儲存空間中資料的數量。
  • 線上服務處理量:以 MBps 為單位,線上服務要求的處理量。

查看 Featurestore 監控指標圖表

  1. 前往Google Cloud 控制台的 Vertex AI「Features」頁面。

    前往「功能」頁面

  2. 在「Featurestore」欄中,按一下 Featurestore 名稱,查看相關指標。

    您可以選取不同的圖表間隔,查看特定時間範圍 (例如 1 小時、1 天或 1 週) 的指標值。

    對於某些線上放送指標,您可以選擇查看特定方法的指標,進一步依實體類型細分指標。舉例來說,您可以查看 ReadFeatureValues 方法或 StreamingReadFeatureValues 方法的延遲時間。

Vertex AI 特徵儲存庫監控指標

使用 Vertex AI 特徵儲存庫設定線上服務後,您就能監控其效能和資源使用率。舉例來說,您可以監控 CPU 負載、最佳化線上供應的節點數量,以及供應要求的數量。

在 Cloud Monitoring 中,網路商店執行個體的受控資源類型為 aiplatform.googleapis.com/FeatureOnlineStore

指標

  • Bytes stored:線上商店執行個體中儲存的資料量,以位元組為單位。

  • CPU 負載:網路商店執行個體中節點的平均 CPU 負載。

  • CPU 負載 (最繁忙的節點):線上商店執行個體中最繁忙節點的 CPU 負載。

  • 節點數量:已針對 Bigtable 線上服務設定的線上商店執行個體線上供應節點數量。

  • 最佳化節點數量:已針對最佳化線上供應模式進行設定的線上商店執行個體的線上供應節點數量。

  • 請求數:網路商店執行個體收到的請求數量。

  • 要求延遲時間:網路商店執行個體的伺服器端要求延遲時間。

  • 回應位元組數:線上放送回應時傳送的資料量 (以位元組為單位)。

  • 提供資料存在時間:以秒為單位的提供資料存在時間,以目前時間與上次同步處理時間的差異來計算。

  • 執行中的同步處理作業:在特定時間點執行中的同步處理作業數量。

  • 提供同步處理時間的資料:線上商店例項中的資料,按照同步處理時間戳記區分。