このドキュメントでは、Vertex AI でフルマネージド モデルの動作、正常性、パフォーマンスをモニタリングする方法について説明します。このドキュメントでは、事前構築済みモデルのオブザーバビリティ ダッシュボードを使用して、モデルの使用状況に関する分析情報を取得し、レイテンシの問題を特定して、エラーのトラブルシューティングを行う方法について説明します。
次の操作の実行方法について学びます。
- モデルのオブザーバビリティ ダッシュボードにアクセスして解釈する。
- 利用可能なモニタリング指標を表示します。
- Metrics Explorer を使用してモデル エンドポイントのトラフィックをモニタリングします。
モデルのオブザーバビリティ ダッシュボードにアクセスして解釈する
Vertex AI の生成 AI には、フルマネージド モデルの動作、正常性、パフォーマンスを表示するための事前構築済みモデルのオブザーバビリティ ダッシュボードが用意されています。フルマネージド モデル(Model as a Service(MaaS)とも呼ばれます)は Google が提供し、Google の Gemini モデルとマネージド エンドポイントを備えたパートナー モデルが含まれます。セルフホスト型モデルの指標はダッシュボードに含まれません。
Vertex AI の生成 AI は、MaaS モデルのアクティビティを自動的に収集してレポートするため、レイテンシの問題を迅速にトラブルシューティングし、容量をモニタリングできます。

ユースケース
アプリケーション デベロッパーは、公開したモデルに対するユーザーの操作を確認できます。たとえば、モデルの使用状況(1 秒あたりのモデル リクエスト数)とユーザー プロンプトのコンピューティング強度(モデル呼び出しのレイテンシ)の推移を確認できます。したがって、これらの指標はモデルの使用量に関連しているため、各モデルの実行費用を見積もることもできます。
問題が発生した場合は、ダッシュボードからすばやくトラブルシューティングできます。API エラー率、最初のトークンのレイテンシ、トークンのスループットを確認することで、モデルが信頼性の高い応答をタイムリーに行っているかどうかを確認できます。
使用可能なモニタリング指標
モデルのオブザーバビリティ ダッシュボードには、Cloud Monitoring によって収集された指標のサブセット(モデルの秒間リクエスト数(QPS)、トークン スループット、最初のトークンのレイテンシなど)が表示されます。ダッシュボードを表示すると、使用可能なすべての指標が表示されます。
制限事項
Vertex AI は、モデルのエンドポイントに対する API 呼び出しのダッシュボード指標のみをキャプチャします。Vertex AI Studio の指標など、 Google Cloud コンソールの使用状況はダッシュボードに追加されません。
ダッシュボードを表示する
Google Cloud コンソールの [Vertex AI] セクションで、[ダッシュボード] ページに移動します。
[モデルのオブザーバビリティ] セクションで、[すべての指標を表示] をクリックして、Google Cloud Observability コンソールでモデルのオブザーバビリティ ダッシュボードを表示します。
特定のモデルまたは特定のロケーションの指標を表示するには、ダッシュボード ページの上部にあるフィルタを 1 つ以上設定します。
各指標の説明については、Google Cloud 指標ページの「
aiplatform
」セクションをご覧ください。
モデルのエンドポイント トラフィックをモニタリングする
次の手順に沿って、Metrics Explorer でエンドポイントへのトラフィックをモニタリングします。
Google Cloud コンソールで、[Metrics Explorer] ページに移動します。
指標を表示するプロジェクトを選択します。
[指標] プルダウン メニューの [指標を選択] をクリックします。
[リソース名または指標名でフィルタ] 検索バーに「
Vertex AI Endpoint
」と入力します。[Vertex AI エンドポイント] > [予測] 指標カテゴリを選択します。[有効な指標] で、次のいずれかの指標を選択します。
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
[適用] をクリックします。複数の指標を追加するには、[クエリを追加] をクリックします。
次のプルダウン メニューを使用して、指標をフィルタまたは集計できます。
指定した条件に基づいてデータのサブセットを選択して表示するには、[フィルタ] プルダウン メニューを使用します。たとえば、モデル
gemini-2.0-flash-001
をフィルタするには、endpoint_id = gemini-2p0-flash-001
を使用します(モデル バージョンの.
はp
に置き換えられます)。複数のデータポイントを 1 つの値に結合して、指標の概要を示すには、[集計] プルダウン メニューを使用します。たとえば、
response_code
の合計を集計できます。
必要に応じて、エンドポイントのアラートを設定できます。詳細については、アラート ポリシーを管理するをご覧ください。
ダッシュボードを使用してプロジェクトに追加した指標を表示するには、ダッシュボードの概要をご覧ください。
次のステップ
- ダッシュボードのアラートを作成する方法については、アラートの概要をご覧ください。
- 指標データの保持については、Monitoring の割り当てと上限をご覧ください。
- 保存データの詳細については、保存データの保護をご覧ください。
- Cloud Monitoring が収集するすべての指標のリストを表示するには、Google Cloud 指標ページの「
aiplatform
」セクションをご覧ください。