本文將說明在 Vertex AI 中使用 AutoML、自訂訓練、Ray 在 Vertex AI 中訓練模型,或使用 BigQuery ML 訓練模型之間的主要差異。
有了 AutoML,您只需要在技術方面投入少量資源即可建立及訓練模型。您可以在投入開發作業前,使用 AutoML 快速製作模型原型並探索新的資料集。舉例來說,您可以使用這項功能,瞭解哪些特徵最適合特定資料集。
您可以使用自訂訓練功能,建立針對目標成果進行最佳化的訓練應用程式。您可以完全掌控訓練應用程式的功能。也就是說,您可以指定任何目標、使用任何演算法、自行開發損失函式或指標,或進行任何其他自訂動作。
透過 Vertex AI 上的 Ray,您可以在 Google Cloud 基礎架構上使用 Ray 的分散式運算架構。Ray on Vertex AI 提供受管理的環境,其中包含可設定的運算資源、與 Vertex AI 推論和 BigQuery 等服務整合,以及靈活的網路選項,可用於開發及執行分散式工作負載。
您可以使用 BigQuery,直接在 BigQuery 中使用 BigQuery 資料訓練模型。您可以使用 SQL 指令快速建立模型,並用於取得批次推論結果。
如要比較各項服務的不同功能和專業知識需求,請參閱下表。
AutoML | 自訂訓練 | Ray on Vertex AI | BigQuery ML | |
---|---|---|---|---|
需要數據科學專業知識 | 否 | 是的,您可以使用這項功能開發訓練應用程式,並進行一些資料準備作業,例如特徵工程。 | 具備機器學習概念和資料科學工作流程的基本知識會很有幫助。 | 否 |
需要具備程式設計能力 | 否。AutoML 是無程式碼的解決方案。 | 是,以便開發訓練應用程式。 | 是。 | 是。 |
訓練模型所需時間 | 較低。資料準備作業需求較少,且不需要進行開發。 | 較高。需要更多資料準備作業,以及訓練應用程式開發作業。使用分散式訓練可縮短訓練模型所需的時間。 | 訓練時間取決於程式碼邏輯 (資料準備和訓練) 和資源的配置時間。 | 較低。由於 BigQuery ML 會運用 BigQuery 運算引擎,因此您不必建構批次推論或模型訓練所需的基礎架構,因此模型開發速度會加快。這麼做可加快訓練、評估和推論的速度。 |
機器學習目標限制 | 可以。您必須指定 AutoML 的預先定義目標之一。 | 否 | 否 | 是 |
可透過超參數調整手動最佳化模型效能 | 否。AutoML 會自動調整部分超參數,但您無法修改所用值。 | 可以。您可以在每次訓練期間調整模型,以便進行實驗和比較。 | 可以。由於您提供的是自訂訓練程式碼,因此可以在 Vertex AI 上啟動 Ray 工作之前,手動設定或調整超參數的值。 | 可以。使用 `CREATE MODEL` 陳述式訓練 ML 模型時,BigQuery ML 支援超參數微調。 |
可控制訓練環境的各個層面 | 有限。對於圖片和表格資料集,您可以指定訓練的節點時數,以及是否允許提早中止訓練。 | 可以。您可以指定環境的各個層面,例如 Compute Engine 機器類型、磁碟大小、機器學習架構、節點數量,以及要用於訓練的 Docker 映像檔。 | 可以。您可以大幅控管訓練環境的各個層面。舉例來說,您可以將自訂的 Docker 容器映像檔帶入 Vertex AI 上的 Ray 叢集。建立 Ray 叢集時,您可以為主節點和工作站節點指定機器類型,包括要使用的加速器 (GPU) 數量和類型等。 | 否 |
資料大小限制 |
可以。AutoML 會使用受管理的資料集,資料大小限制會因資料集類型而異。如需詳細資訊,請參閱下列任一主題: |
對於未管理的資料集,則不行。管理式資料集的限制與 BigQuery 中建立並代管的管理式資料集物件相同,且用於訓練 AutoML 模型。 | 否。不過,BigQuery 讀取作業的查詢回應大小上限為 10 GB。這是 BigQuery API 回應大小的限制,不一定是 Vertex AI 中的 Ray 可透過重複或並行查詢從 BigQuery 處理的資料總量限制。 | 可以。BigQuery ML 會根據每個專案的狀況來限定適當的配額。 詳情請參閱「配額與限制」。 |
後續步驟
- 選擇入門教學課程,開始使用 Vertex AI Training。
- 進一步瞭解如何訓練 AutoML 模型。
- 瞭解如何使用 Python 建立自訂訓練工作。
- 進一步瞭解 Ray on Vertex AI。