選擇自訂訓練方法

如果您要編寫自己的訓練程式碼,而非使用 AutoML,則可考慮採用多種自訂訓練方式。本文將簡要介紹執行自訂訓練的各種方式,並進行比較。

Vertex AI 中的自訂訓練資源

您可以建立三種 Vertex AI 資源,以便在 Vertex AI 上訓練自訂模型:

建立自訂工作時,您需要指定 Vertex AI 執行訓練程式碼時所需的設定,包括:

您可以在工作站集區中指定下列設定:

超參數調整工作需要設定其他設定,例如指標。進一步瞭解超參數調整

訓練管線會採用額外步驟來自動化調度管理自訂訓練工作或超參數調整工作,例如在訓練工作順利完成後,載入資料集或將模型上傳至 Vertex AI。

自訂訓練資源

如要查看專案中現有的訓練管道,請前往Google Cloud 控制台的「Vertex AI」專區,然後前往「訓練管道」頁面。

前往訓練管道

如要查看專案中現有的自訂工作,請前往「自訂工作」頁面。

前往「自訂工作」

如要查看專案中現有的超參數調整工作,請前往「超參數調整」頁面。

前往超參數調整

預先建構和自訂容器

將自訂訓練工作、超參數調整工作或訓練管道提交至 Vertex AI 前,您必須建立 Python 訓練應用程式自訂容器,以便定義要在 Vertex AI 上執行的訓練程式碼和依附元件。如果您使用 TensorFlow、PyTorch、scikit-learn 或 XGBoost 建立 Python 訓練應用程式,可以使用我們的預先建構容器來執行程式碼。如果不確定要選擇哪一個選項,請參閱訓練碼規定瞭解詳情。

分散式訓練

您可以指定多個工作站集區,設定自訂訓練工作、超參數調整工作,或分散式訓練的訓練管道:

  • 使用第一個工作站集區設定主要備用資源,並將備用資源數量設為 1。
  • 如果機器學習架構支援這些額外的叢集工作,以便進行分散式訓練,請新增更多 worker 集區來設定 worker 副本、參數伺服器副本或評估器副本。

進一步瞭解如何使用分散式訓練

後續步驟

  • 瞭解如何建立永久資源,以便執行自訂訓練工作。
  • 請參閱「建立自訂訓練工作」,瞭解如何建立自訂訓練工作,以便在 Vertex AI 中執行自訂訓練應用程式。
  • 請參閱「建立訓練管道」,瞭解如何建立訓練管道,以便在 Vertex AI 中執行自訂訓練應用程式。
  • 請參閱「使用超參數調整」,瞭解超參數調整搜尋功能。