このページは Cloud Translation API によって翻訳されました。

Google Cloud コンソールを使用してモデルをデプロイする

Google Cloud コンソールで、パブリックエンドポイントを作成してモデルをデプロイできます。

モデルは、[オンライン予測] ページまたは [モデルレジストリ] ページからデプロイできます。

[オンライン予測] ページからモデルをデプロイする

[オンライン予測] ページで、エンドポイントを作成して、次のように 1 つ以上のモデルをデプロイできます。

コンソールの [Vertex AI] セクションで、[オンライン予測] ページに移動します。 Google Cloud

[オンライン予測] ページに移動
[ 作成] をクリックします。
[新しいエンドポイント] ペインで、次の操作を行います。
1. エンドポイント名を入力します。
2. アクセスの種類として [標準] を選択します。
3. 専用（共有ではない）パブリックエンドポイントを作成するには、[専用 DNS を有効にする] チェックボックスをオンにします。
4. [続行] をクリックします。
[モデル設定] ペインで、次の操作を行います。
1. プルダウンリストからモデルを選択します。
2. プルダウンリストからモデルバージョンを選択します。
3. モデルのトラフィック分割の割合を入力します。
4. [完了] をクリックします。
5. デプロイするモデルが他にもある場合は、上記の手順を繰り返します。

Model Registry ページからモデルをデプロイする

Model Registry ページで、次のように 1 つ以上の新規または既存のエンドポイントにモデルをデプロイできます。

Google Cloud コンソールの [Vertex AI] セクションで、[モデル] ページに移動します。

[モデル] ページに移動
デプロイするモデルの名前とバージョン ID をクリックして、詳細ページを開きます。
[デプロイとテスト] タブを選択します。

モデルがいずれかのエンドポイントにデプロイされている場合は、[モデルのデプロイ] セクションに一覧表示されます。
[エンドポイントへのデプロイ] をクリックします。
モデルを新しいエンドポイントにデプロイするには:
1. [新しいエンドポイントを作成する] を選択します。
2. 新しいエンドポイントの名前を指定します。
3. 専用（共有ではない）パブリックエンドポイントを作成するには、[専用 DNS を有効にする] チェックボックスをオンにします。
4. [続行] をクリックします。
モデルを既存のエンドポイントにデプロイするには:
1. [既存のエンドポイントに追加] を選択します。
2. プルダウンリストからエンドポイントを選択します。
3. [続行] をクリックします。
1 つのエンドポイントに複数のモデルをデプロイすることも、複数のエンドポイントに同じモデルをデプロイすることもできます。
1 つ以上のモデルがデプロイされている既存のエンドポイントにモデルをデプロイする場合は、すべての割合の合計が 100% になるように、デプロイするモデルとデプロイ済みのモデルのトラフィック分割の割合を更新する必要があります。
モデルを新しいエンドポイントにデプロイする場合は、トラフィック分割を 100 にします。それ以外の場合は、合計が 100 になるように、エンドポイントにあるすべてのモデルのトラフィック分割値を調整します。
モデルのコンピューティングノードの最小数を入力します。

これは、モデルで常に使用できる必要のあるノードの数です。

推論負荷を処理しているか、スタンバイ状態かに関係なく、使用されているノードに対して料金が発生します（推論トラフィックがない場合でも課金されます）。料金ページをご覧ください。

推論トラフィックを処理するために、必要に応じてコンピューティングノードの数を増やすことができますが、ノードの最大数を超えることはありません。
自動スケーリングを使用するには、Vertex AI でスケールアップするコンピューティングノードの最大数を入力します。
マシンタイプを選択します。

マシンリソースのサイズが大きいほど、推論パフォーマンスが向上しますが、コストも増加します。使用可能なマシンタイプを比較します。
アクセラレータタイプとアクセラレータ数を選択します。

モデルをインポートまたは作成したときにアクセラレータの使用を有効にした場合に、このオプションが表示されます。

アクセラレータ数については、GPU テーブルを参照して、各 CPU マシンタイプで使用できる有効な GPU の数を確認してください。アクセラレータ数は、デプロイメント内のアクセラレータの合計数ではなく、ノードあたりのアクセラレータの数を指します。
デプロイにカスタムサービスアカウントを使用する場合は、[サービスアカウント] プルダウンボックスでサービスアカウントを選択します。
推論ロギングのデフォルト設定を変更する方法をご確認ください。
モデルの [完了] をクリックします。すべてのトラフィック分割の割合が正しい場合は、[続行] をクリックします。
モデルがデプロイされるリージョンが表示されます。これは、モデルを作成したリージョンにする必要があります。
[デプロイ] をクリックして、エンドポイントにモデルをデプロイします。

次のステップ

オンライン推論を取得する方法を確認する。
推論ロギングのデフォルト設定を変更する方法をご確認ください。

Google Cloud コンソールを使用してモデルをデプロイする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

[オンライン予測] ページからモデルをデプロイする

Model Registry ページからモデルをデプロイする

次のステップ

Google Cloud コンソールを使用してモデルをデプロイする