如果您要自行編寫訓練程式碼,而不是使用 AutoML},可以考慮採用幾種自訂訓練方式。本文簡要概述及比較執行自訂訓練的各種方式。
Vertex AI 的自訂訓練資源
您可以建立三種 Vertex AI 資源,在 Vertex AI 中訓練自訂模型:
建立自訂工作時,請指定 Vertex AI 執行訓練程式碼所需的設定,包括:
- 單一節點訓練 (
WorkerPoolSpec
) 的一個工作站集區,或分散式訓練的多個工作站集區 - 設定工作排程 (
Scheduling
)、為訓練程式碼設定特定環境變數、使用自訂服務帳戶,以及使用虛擬私有雲網路對等互連的選用設定
在工作站集區中,您可以指定下列設定:
- 機器類型和加速器
- 工作站集區執行的訓練程式碼類型設定:Python 訓練應用程式 (
PythonPackageSpec
) 或自訂容器 (ContainerSpec
)
超參數調整工作有其他設定可供調整,例如指標。進一步瞭解超參數調整。
訓練管線會自動調度管理自訂訓練工作或超參數調整工作,並執行額外步驟,例如載入資料集,或在訓練工作成功完成後,將模型上傳至 Vertex AI。
自訂訓練資源
如要查看專案中現有的訓練管道,請前往Google Cloud 控制台的「Vertex AI」專區,然後點選「訓練管道」頁面。
如要查看專案中現有的自訂工作,請前往「自訂工作」頁面。
如要查看專案中現有的超參數調整工作,請前往「超參數調整」頁面。
預先建構的容器和自訂容器
將自訂訓練工作、超參數調整工作或訓練管線提交至 Vertex AI 前,您需要建立 Python 訓練應用程式或自訂容器,定義要在 Vertex AI 上執行的訓練程式碼和依附元件。如果您使用 TensorFlow、PyTorch、scikit-learn 或 XGBoost 建立 Python 訓練應用程式,可以使用預先建構的容器執行程式碼。如果不確定要選擇哪個選項,請參閱訓練代碼規定瞭解詳情。
分散式訓練
您可以指定多個工作站集區,為分散式訓練設定自訂訓練工作、超參數調整工作或訓練管線:
- 使用第一個工作站集區設定主要副本,並將副本數量設為 1。
- 如果機器學習架構支援這些額外的叢集工作,可進行分散式訓練,請新增更多工作站集區,以設定工作站副本、參數伺服器副本或評估工具副本。
進一步瞭解如何使用分散式訓練。
後續步驟
- 瞭解如何建立永久資源,以執行自訂訓練工作。
- 請參閱「建立自訂訓練工作」,瞭解如何建立自訂訓練工作,以便在 Vertex AI 中執行自訂訓練應用程式。
- 請參閱「建立訓練管線」,瞭解如何建立訓練管線,以便在 Vertex AI 中執行自訂訓練應用程式。
- 如要瞭解超參數調整搜尋,請參閱「使用超參數調整」。