このページは Cloud Translation API によって翻訳されました。

モデルをモニタリングする

このドキュメントでは、Vertex AI でフルマネージドモデルの動作、正常性、パフォーマンスをモニタリングする方法について説明します。このドキュメントでは、事前構築済みモデルのオブザーバビリティダッシュボードを使用して、モデルの使用状況に関する分析情報を取得し、レイテンシの問題を特定して、エラーをトラブルシューティングする方法について説明します。

次の操作の実行方法について学びます。

モデルのオブザーバビリティダッシュボードにアクセスして解釈する。
利用可能なモニタリング指標を表示します。
Metrics Explorer を使用してモデルエンドポイントのトラフィックをモニタリングします。

モデルのオブザーバビリティダッシュボードにアクセスして解釈する

Vertex AI の生成 AI には、フルマネージドモデルの動作、正常性、パフォーマンスを表示するための事前構築済みモデルのオブザーバビリティダッシュボードが用意されています。フルマネージドモデル（Model as a Service（MaaS）とも呼ばれます）は Google が提供し、Google の Gemini モデルとマネージドエンドポイントを備えたパートナーモデルが含まれます。セルフホスト型モデルの指標はダッシュボードに含まれません。

Vertex AI の生成 AI は、MaaS モデルのアクティビティを自動的に収集してレポートするため、レイテンシの問題を迅速にトラブルシューティングし、容量をモニタリングできます。

Cloud Console のモデルのオブザーバビリティダッシュボードの例 — ^{モデルのオブザーバビリティダッシュボードの例}

ユースケース

アプリケーションデベロッパーは、公開したモデルに対するユーザーの操作を確認できます。たとえば、モデルの使用状況（1 秒あたりのモデルリクエスト数）とユーザープロンプトのコンピューティング強度（モデル呼び出しのレイテンシ）の推移を確認できます。したがって、これらの指標はモデルの使用量に関連しているため、各モデルの実行費用を見積もることもできます。

問題が発生した場合は、ダッシュボードからすばやくトラブルシューティングできます。API エラー率、最初のトークンのレイテンシ、トークンのスループットを確認することで、モデルが信頼性の高い応答をタイムリーに行っているかどうかを確認できます。

使用可能なモニタリング指標

モデルのオブザーバビリティダッシュボードには、Cloud Monitoring によって収集された指標のサブセット（モデルの秒間リクエスト数（QPS）、トークンスループット、最初のトークンレイテンシなど）が表示されます。ダッシュボードを表示すると、使用可能なすべての指標が表示されます。

制限事項

Vertex AI は、モデルのエンドポイントに対する API 呼び出しのダッシュボード指標のみをキャプチャします。Vertex AI Studio の指標など、 Google Cloud コンソールの使用状況はダッシュボードに追加されません。

ダッシュボードを表示する

Google Cloud コンソールの [Vertex AI] セクションで、[ダッシュボード] ページに移動します。

Vertex AI に移動 1. ダッシュボードの [モデルのオブザーバビリティ] で、[すべての指標を表示] をクリックして、Google Cloud Observability コンソールでモデルのオブザーバビリティダッシュボードを表示します。

特定のモデルまたは特定のロケーションの指標を表示するには、ダッシュボードページの上部にあるフィルタを 1 つ以上設定します。

各指標の説明については、Google Cloud 指標ページの「aiplatform」セクションをご覧ください。

モデルのエンドポイントトラフィックをモニタリングする

次の手順に沿って、Metrics Explorer でエンドポイントへのトラフィックをモニタリングします。

Google Cloud コンソールで、[Metrics Explorer] ページに移動します。

[Metrics Explorer] に移動
指標を表示するプロジェクトを選択します。
[指標] プルダウンメニューの [指標を選択] をクリックします。
[リソース名または指標名でフィルタ] 検索バーに「Vertex AI Endpoint」と入力します。
[Vertex AI エンドポイント] > [予測] 指標カテゴリを選択します。[有効な指標] で、次のいずれかの指標を選択します。
- prediction/online/error_count
- prediction/online/prediction_count
- prediction/online/prediction_latencies
- prediction/online/response_count
[適用] をクリックします。複数の指標を追加するには、[クエリを追加] をクリックします。

次のプルダウンメニューを使用して、指標をフィルタまたは集計できます。
- 指定した条件に基づいてデータのサブセットを選択して表示するには、[フィルタ] プルダウンメニューを使用します。たとえば、モデル gemini-2.0-flash-001 をフィルタするには、endpoint_id = gemini-2p0-flash-001 を使用します（モデルバージョンの . は p に置き換えられます）。
- 複数のデータポイントを 1 つの値に結合して、指標の概要を示すには、[集計] プルダウンメニューを使用します。たとえば、response_code の合計を集計できます。
必要に応じて、エンドポイントのアラートを設定できます。詳細については、アラートポリシーを管理するをご覧ください。

ダッシュボードを使用してプロジェクトに追加した指標を表示するには、ダッシュボードの概要をご覧ください。

次のステップ

ダッシュボードのアラートを作成する方法については、アラートの概要をご覧ください。
指標データの保持については、Monitoring の割り当てと上限をご覧ください。
保存データの詳細については、保存データの保護をご覧ください。
Cloud Monitoring が収集するすべての指標のリストを表示するには、Google Cloud 指標ページの「aiplatform」セクションをご覧ください。