カスタム トレーニング方法を選択する

AutoML の代わりに独自のトレーニング コードを作成する場合、いくつかのカスタム トレーニングを行うことを検討してください。このトピックでは、カスタム トレーニングを実行するさまざまな方法を簡単に説明します。

Vertex AI のカスタム トレーニング リソース

Vertex AI でカスタムモデルをトレーニングするために作成できる Vertex AI リソースには、次の 3 種類があります。

カスタムジョブを作成する場合、Vertex AI がトレーニング コードを実行するために必要な設定を指定します。次のような設定になります。

ワーカープールでは次の設定を指定できます。

ハイパーパラメータ調整ジョブを構成するには、指標などの追加設定が必要です。詳しくは、ハイパーパラメータ調整をご覧ください。

トレーニング パイプラインは、追加のステップとしてカスタム トレーニング ジョブまたはハイパーパラメータ調整ジョブをオーケストレートします。たとえば、トレーニング ジョブが正常に完了した後に Vertex AI へのデータセットの読み込みやモデルのアップロードなどを行います。

カスタム トレーニング リソース

プロジェクト内の既存のトレーニング パイプラインを表示するには、Google Cloud コンソールの [Vertex AI] セクションの [トレーニング パイプライン] ページに移動します。

[トレーニング パイプライン] に移動

プロジェクト内の既存のカスタムジョブを表示するには、[CUSTOM JOB] ページに移動します。

[CUSTOM JOB] に移動

プロジェクト内の既存のハイパーパラメータ調整ジョブを表示するには、[HYPERPARAMETER TUNING] ページに移動します。

[HYPERPARAMETER TUNING] に移動

ビルド済み / カスタム コンテナ

カスタム トレーニング ジョブ、ハイパーパラメータ調整ジョブ、またはトレーニング パイプラインを Vertex AI に送信する前に、Python トレーニング アプリケーションまたはカスタム コンテナを作成して、Vertex AI で実行するトレーニング コードと依存関係を定義する必要があります。TensorFlow、PyTorch、scikit-learn、または XGBoost を使用して Python トレーニング アプリケーションを作成する場合は、ビルド済みのコンテナを使用してコードを実行できます。どちらを選択すべきか判断に迷う場合は、トレーニング コードの要件をご覧ください。

分散トレーニング

分散トレーニング用のカスタム トレーニング ジョブ、ハイパーパラメータ調整ジョブ、またはトレーニング パイプラインを構成するには、複数のワーカープールを指定します。

  • 最初のワーカープールを使用してプライマリ レプリカを構成し、レプリカ数を 1 に設定します。
  • 機械学習フレームワークが分散トレーニング用のこれらの追加クラスタタスクをサポートしている場合は、ワーカープールを追加して、ワーカー レプリカ、パラメータ サーバー レプリカ、またはエバリュエータ レプリカを構成します。

分散トレーニングの使用方法の詳細。

次のステップ