モデルをモニタリングする

このドキュメントでは、Vertex AI でフルマネージド モデルの動作、正常性、パフォーマンスをモニタリングする方法について説明します。このドキュメントでは、事前構築済みモデルのオブザーバビリティ ダッシュボードを使用して、モデルの使用状況に関する分析情報を取得し、レイテンシの問題を特定して、エラーのトラブルシューティングを行う方法について説明します。

次の操作の実行方法について学びます。

  • モデルのオブザーバビリティ ダッシュボードにアクセスして解釈する。
  • 利用可能なモニタリング指標を表示します。
  • Metrics Explorer を使用してモデル エンドポイントのトラフィックをモニタリングします。

モデルのオブザーバビリティ ダッシュボードにアクセスして解釈する

Vertex AI の生成 AI には、フルマネージド モデルの動作、正常性、パフォーマンスを表示するための事前構築済みモデルのオブザーバビリティ ダッシュボードが用意されています。フルマネージド モデル(Model as a Service(MaaS)とも呼ばれます)は Google が提供し、Google の Gemini モデルとマネージド エンドポイントを備えたパートナー モデルが含まれます。セルフホスト型モデルの指標はダッシュボードに含まれません。

Vertex AI の生成 AI は、MaaS モデルのアクティビティを自動的に収集してレポートするため、レイテンシの問題を迅速にトラブルシューティングし、容量をモニタリングできます。

Cloud Console のモデルのオブザーバビリティ ダッシュボードの例
モデルのオブザーバビリティ ダッシュボードの例

ユースケース

アプリケーション デベロッパーは、公開したモデルに対するユーザーの操作を確認できます。たとえば、モデルの使用状況(1 秒あたりのモデル リクエスト数)とユーザー プロンプトのコンピューティング強度(モデル呼び出しのレイテンシ)の推移を確認できます。したがって、これらの指標はモデルの使用量に関連しているため、各モデルの実行費用を見積もることもできます。

問題が発生した場合は、ダッシュボードからすばやくトラブルシューティングできます。API エラー率、最初のトークンのレイテンシ、トークンのスループットを確認することで、モデルが信頼性の高い応答をタイムリーに行っているかどうかを確認できます。

使用可能なモニタリング指標

モデルのオブザーバビリティ ダッシュボードには、Cloud Monitoring によって収集された指標のサブセット(モデルの秒間リクエスト数(QPS)、トークン スループット、最初のトークンのレイテンシなど)が表示されます。ダッシュボードを表示すると、使用可能なすべての指標が表示されます。

制限事項

Vertex AI は、モデルのエンドポイントに対する API 呼び出しのダッシュボード指標のみをキャプチャします。Vertex AI Studio の指標など、 Google Cloud コンソールの使用状況はダッシュボードに追加されません。

ダッシュボードを表示する

  1. Google Cloud コンソールの [Vertex AI] セクションで、[ダッシュボード] ページに移動します。

    Vertex AI に移動

  2. [モデルのオブザーバビリティ] セクションで、[すべての指標を表示] をクリックして、Google Cloud Observability コンソールでモデルのオブザーバビリティ ダッシュボードを表示します。

  3. 特定のモデルまたは特定のロケーションの指標を表示するには、ダッシュボード ページの上部にあるフィルタを 1 つ以上設定します。

    各指標の説明については、Google Cloud 指標ページの「aiplatform」セクションをご覧ください。

モデルのエンドポイント トラフィックをモニタリングする

次の手順に沿って、Metrics Explorer でエンドポイントへのトラフィックをモニタリングします。

  1. Google Cloud コンソールで、[Metrics Explorer] ページに移動します。

    [Metrics Explorer] に移動

  2. 指標を表示するプロジェクトを選択します。

  3. [指標] プルダウン メニューの [指標を選択] をクリックします。

  4. [リソース名または指標名でフィルタ] 検索バーに「Vertex AI Endpoint」と入力します。

  5. [Vertex AI エンドポイント] > [予測] 指標カテゴリを選択します。[有効な指標] で、次のいずれかの指標を選択します。

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    [適用] をクリックします。複数の指標を追加するには、[クエリを追加] をクリックします。

    次のプルダウン メニューを使用して、指標をフィルタまたは集計できます。

    • 指定した条件に基づいてデータのサブセットを選択して表示するには、[フィルタ] プルダウン メニューを使用します。たとえば、モデル gemini-2.0-flash-001 をフィルタするには、endpoint_id = gemini-2p0-flash-001 を使用します(モデル バージョンの .p に置き換えられます)。

    • 複数のデータポイントを 1 つの値に結合して、指標の概要を示すには、[集計] プルダウン メニューを使用します。たとえば、response_code合計を集計できます。

  6. 必要に応じて、エンドポイントのアラートを設定できます。詳細については、アラート ポリシーを管理するをご覧ください。

ダッシュボードを使用してプロジェクトに追加した指標を表示するには、ダッシュボードの概要をご覧ください。

次のステップ