Google Cloud コンソールを使用してモデルをデプロイする

Google Cloud コンソールで、公開エンドポイントを作成してモデルをデプロイできます。

モデルは、[オンライン予測] ページまたは [モデル レジストリ] ページからデプロイできます。

[オンライン予測] ページからモデルをデプロイする

[オンライン予測] ページで、エンドポイントを作成して、次のように 1 つ以上のモデルをデプロイできます。

  1. Google Cloud コンソールの [Vertex AI] セクションで、[オンライン予測] ページに移動します。

    [オンライン予測] ページに移動

  2. [ 作成] をクリックします。

  3. [新しいエンドポイント] ペインで、次の操作を行います。

    1. エンドポイント名を入力します。

    2. アクセスの種類として [標準] を選択します。

    3. 専用(共有ではない)パブリック エンドポイントを作成するには、[専用 DNS を有効にする] チェックボックスをオンにします。

    4. [続行] をクリックします。

  4. [モデル設定] ペインで、次の操作を行います。

    1. プルダウン リストからモデルを選択します。

    2. プルダウン リストからモデル バージョンを選択します。

    3. モデルのトラフィック分割の割合を入力します。

    4. [完了] をクリックします。

    5. デプロイするモデルが他にもある場合は、上記の手順を繰り返します。

Model Registry ページからモデルをデプロイする

Model Registry ページで、次のように 1 つ以上の新規または既存のエンドポイントにモデルをデプロイできます。

  1. Google Cloud コンソールの Vertex AI セクションで、[モデル] ページに移動します。

    [モデル] ページに移動

  2. デプロイするモデルの名前とバージョン ID をクリックして、詳細ページを開きます。

  3. [デプロイとテスト] タブを選択します。

    モデルがいずれかのエンドポイントにデプロイされている場合は、[モデルのデプロイ] セクションに一覧表示されます。

  4. [エンドポイントへのデプロイ] をクリックします。

  5. モデルを新しいエンドポイントにデプロイするには:

    1. [新しいエンドポイントを作成する] を選択します。
    2. 新しいエンドポイントの名前を指定します。
    3. 専用(共有ではない)パブリック エンドポイントを作成するには、[専用 DNS を有効にする] チェックボックスをオンにします。
    4. [続行] をクリックします。

    モデルを既存のエンドポイントにデプロイするには:

    1. [既存のエンドポイントに追加] を選択します。
    2. プルダウン リストからエンドポイントを選択します。
    3. [続行] をクリックします。

    1 つのエンドポイントに複数のモデルをデプロイすることも、複数のエンドポイントに同じモデルをデプロイすることもできます。

  6. 1 つ以上のモデルがデプロイされている既存のエンドポイントにモデルをデプロイする場合は、すべての割合の合計が 100% になるように、デプロイするモデルとデプロイ済みのモデルのトラフィック分割の割合を更新する必要があります。

  7. モデルを新しいエンドポイントにデプロイする場合は、トラフィック分割を 100 にします。それ以外の場合は、合計が 100 になるように、エンドポイントにあるすべてのモデルのトラフィック分割値を調整します。

  8. モデルのコンピューティング ノードの最小数を入力します。

    これは、モデルで常に使用できる必要のあるノードの数です。

    予測負荷を処理しているか、スタンバイ状態かに関係なく、使用されているノードに対して料金が発生します(予測トラフィックがない場合でも課金されます)。料金ページをご覧ください。

    予測トラフィックを処理するために、必要に応じてコンピューティング ノードの数を増やすことができますが、ノードの最大数を超えることはありません。

  9. 自動スケーリングを使用するには、Vertex AI でスケールアップするコンピューティング ノードの最大数を入力します。

  10. マシンタイプを選択します。

    マシンリソースのサイズが大きいほど、予測パフォーマンスが向上しますが、コストも増加します。使用可能なマシンタイプを比較します。

  11. アクセラレータ タイプアクセラレータ数を選択します。

    モデルをインポートまたは作成したときにアクセラレータの使用を有効にした場合に、このオプションが表示されます。

    アクセラレータ数については、GPU テーブルを参照して、各 CPU マシンタイプで使用できる有効な GPU の数を確認してください。アクセラレータ数は、デプロイメント内のアクセラレータの合計数ではなく、ノードあたりのアクセラレータの数を指します。

  12. デプロイにカスタム サービス アカウントを使用する場合は、[サービス アカウント] プルダウン ボックスでサービス アカウントを選択します。

  13. 予測ロギングのデフォルト設定を変更する方法をご確認ください。

  14. モデルの [完了] をクリックします。すべてのトラフィック分割の割合が正しい場合は、[続行] をクリックします。

    モデルがデプロイされるリージョンが表示されます。これは、モデルを作成したリージョンにする必要があります。

  15. [デプロイ] をクリックして、エンドポイントにモデルをデプロイします。

次のステップ