Gemini のような生成 AI モデルの中には、マネージド API があり、デプロイなしでプロンプトを受け付ける準備が整っているものもあります。マネージド API があるモデルの一覧については、基盤モデル API をご覧ください。
他の生成 AI モデルでは、プロンプトを受け付ける準備が整う前に、そのモデルがエンドポイントにデプロイされる必要があります。デプロイする必要がある生成モデルには、次に挙げる 2 つの種類があります。
チューニング済みモデル。サポートされている基盤モデルを独自のデータでチューニングして作成します。
マネージド API がない生成モデル。Model Garden では、API 利用可能のラベルや Vertex AI Studio のラベルが付いていないモデル(Llama 2 など)がこれに該当します。
モデルをエンドポイントにデプロイすると、Vertex AI は、プロンプト リクエストを処理できるように、コンピューティング リソースと URI をモデルに関連付けます。
チューニング済みモデルをデプロイする
チューニング済みモデルは、Vertex AI Model Registry に自動的にアップロードされ、Vertex AI endpoint
にデプロイされます。チューニング済みモデルは、データでチューニングされるため、Model Garden には表示されません。詳細については、モデルのチューニングの概要をご覧ください。
エンドポイントがアクティブになると、その URI でプロンプト リクエストを受け付ける準備が整います。チューニング済みモデルの API 呼び出しの形式は、チューニング元の基盤モデルと同じです。たとえば、モデルが Gemini でチューニングされている場合は、プロンプト リクエストは Gemini API に従う必要があります。
プロンプト リクエストは、マネージド API ではなく、チューニング済みモデルのエンドポイントに送信します。チューニング済みモデルのエンドポイントの形式は次のとおりです。
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
エンドポイント ID を取得するには、エンドポイントを表示または管理するをご覧ください。
プロンプト リクエストの形式の詳細については、モデル API リファレンスをご覧ください。
マネージド API がない生成モデルをデプロイする
マネージド API がない Model Garden のモデルを使用するには、プロンプト リクエストを送信する前に、モデルを Model Registry にアップロードし、エンドポイントにデプロイする必要があります。これは、Vertex AI におけるオンライン予測用のカスタム トレーニング モデルのアップロードとデプロイに似ています。
これらのモデルのいずれかをデプロイするには、Model Garden に移動して、デプロイするモデルを選択します。
各モデルカードには、以下のデプロイ オプションが 1 つ以上表示されます。
[デプロイ] ボタン: Model Garden のほとんどの生成モデルには、[デプロイ] ボタンがあり、Vertex AI へのデプロイを順を追って確認できます。[デプロイ] ボタンが表示されない場合は、次の項目に進んでください。
Vertex AI へのデプロイでは、推奨設定を使用するか、変更できます。また、Compute Engine の予約を選択するなど、[詳細] デプロイ設定を設定することもできます。
[ノートブックを開く] ボタン: Jupyter ノートブックを開きます。このオプションは、すべてのモデルカードで表示されます。Jupyter ノートブックには、モデルを Model Registry にアップロードする手順とサンプルコード、モデルをエンドポイントにデプロイする手順とサンプルコード、プロンプト リクエストを送信する手順とサンプルコードが含まれています。
デプロイが完了し、エンドポイントが有効になると、その URI でプロンプト リクエストを受け付ける準備が整います。API の形式は predict
で、リクエスト本文の各 instance
の形式はモデルによって異なります。詳細については、次のリソースをご覧ください。
モデルをデプロイするために十分なマシン割り当てがあることを確認します。現在の割り当ての確認や、割り当ての引き上げをリクエストするには、Google Cloud コンソールで [割り当て] ページに移動します。
次に、割り当て名 Custom Model Serving
でフィルタして、オンライン予測の割り当てを表示します。詳細については、割り当ての表示と管理をご覧ください。
Compute Engine 予約を使用してデプロイされたモデルの容量を確保する
Compute Engine の予約によって割り振られた VM リソースに Model Garden モデルをデプロイできます。予約を使用すると、モデル予測リクエストで必要なときに容量を確実に利用できます。詳細については、予測で予約を使用するをご覧ください。
モデルを表示または管理する
チューニング済みモデルの場合、Google Cloud コンソールの [チューニングと抽出] ページで、モデルとそのチューニング ジョブを表示できます。
Model Registry では、アップロードしたすべてのモデルを表示して管理することもできます。
Model Registry では、チューニング済みモデルは大規模モデルに分類され、基盤モデルと、チューニングに使用されたパイプラインやチューニング ジョブを指定するラベルがあります。
[デプロイ] ボタンでデプロイされたモデルは、その Source
として Model Garden が表示されます。モデルが Model Garden で更新されても、Model Registry にアップロードされたモデルは更新されないことに注意してください。
詳細については、Vertex AI Model Registry の概要をご覧ください。
エンドポイントを表示または管理する
エンドポイントを表示して管理するには、Vertex AI の [オンライン予測] ページに移動します。デフォルトでは、エンドポイントの名前はモデルと同じ名前です。
詳細については、エンドポイントにモデルをデプロイするをご覧ください。
料金
チューニング済みモデルの場合、モデルのチューニング元となった基盤モデルと同じレートで、トークンごとに課金されます。チューニングは基盤モデルの上に小さなアダプターとして実装されるため、エンドポイントの費用はかかりません。詳細については、Vertex AI の生成 AI の料金をご覧ください。
マネージド API がないモデルの場合は、Vertex AI のオンライン予測と同じレートで、エンドポイントが使用したマシン時間に対して課金されます。トークンごとには課金されません。詳細については、Vertex AI における予測の料金をご覧ください。