Vertex AI 中的 Tabular Workflows

表格式工作流程是一組整合、全代管且可擴充的管道,可用於端對端機器學習,並支援表格式資料。這項服務會運用 Google 的技術來開發模型,並提供符合您需求的自訂選項。

優點

  • 全代管:您不必擔心更新、依附元件和衝突問題。
  • 輕鬆擴充:您不必隨著工作負載或資料集增加而重新設計基礎架構。
  • 針對效能進行最佳化:系統會根據工作流程需求自動設定合適的硬體。
  • 深度整合:與 Vertex AI MLOps 套件中的產品 (例如 Vertex AI Pipelines 和 Vertex AI Experiments) 相容,可讓您在短時間內執行許多實驗。

技術總覽

每個工作流程都是 Vertex AI Pipelines 的代管執行個體。

Vertex AI Pipelines 是執行 Kubeflow 管道的無伺服器服務。您可以使用管道來自動執行及監控機器學習和資料準備工作。管道中的每個步驟都會執行管道工作流程的一部分。舉例來說,管道可以包含分割資料、轉換資料類型和訓練模型的步驟。由於步驟是管道元件的例項,因此步驟會包含輸入內容、輸出內容和容器映像檔。步驟輸入內容可從管道的輸入內容設定,也可以取決於管道中其他步驟的輸出內容。這些依附元件會將管道的工作流程定義為有向非循環圖。

以表格形式呈現的資料流程,做為有向非循環圖

開始使用

在大多數情況下,您必須使用 Google Cloud Pipeline Components SDK 定義及執行管道。以下程式碼範例可提供說明。請注意,實際的程式碼實作內容可能會有所不同。

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
           optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     )
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

如需試用版 Colab 和 Notebook,請與業務代表聯絡,或填寫申請表單

版本管理和維護

表格式工作流程具有有效的版本化系統,可讓您持續更新及改善應用程式,而不會造成任何異動。

每個工作流程都會在 Google Cloud Pipeline 元件 SDK 中發布及更新。任何工作流程的更新和修改內容都會以該工作流程的新版本發布。每個工作流程的舊版一律可透過舊版 SDK 使用。如果 SDK 版本已固定,工作流程版本也會一併固定。

可用的工作流程

Vertex AI 提供下列 Tabular Workflows:

名稱 類型 適用情況
功能轉換引擎 特徵工程 公開預先發布版
端對端 AutoML 分類與迴歸 正式發布版
TabNet 分類與迴歸 公開預先發布版
廣度和深度 分類與迴歸 公開預先發布版
預測 預測 公開預先發布版

如需其他資訊和筆記本範例,請與業務代表聯絡,或填寫申請表單

特徵轉換引擎

特徵轉換引擎會執行特徵選取和特徵轉換作業。如果啟用特徵選取功能,特徵轉換引擎會建立一組重要特徵,並依重要性排序。如果啟用特徵轉換,特徵轉換引擎會處理特徵,確保模型訓練和模型服務的輸入內容一致。特徵轉換引擎可單獨使用,也可以搭配任何表格訓練工作流程使用。同時支援 TensorFlow 和非 TensorFlow 架構。

詳情請參閱「特徵工程」。

分類和迴歸的「表格」工作流程

端對端 AutoML 的資料表工作流程

端對端 AutoML 的 Tabular 工作流程是用於分類和迴歸工作的完整 AutoML 管道。這項功能與 AutoML API 類似,但可讓您選擇要控制和自動執行的項目。您可以為管道中的每個步驟設定控制項,而非為整個管道設定控制項。管道控制項包括:

  • 資料分割
  • 特徵工程
  • 架構搜尋
  • 模型訓練
  • 模型集成
  • 模型精煉

優點

  • 支援大型資料集,大小為數 TB,最多可包含 1000 個欄。
  • 您可以限制架構類型的搜尋空間或略過架構搜尋,提高穩定性並縮短訓練時間
  • 您可以手動選取用於訓練和架構搜尋的硬體,提升訓練速度
  • 可讓您透過蒸餾或變更集合大小,縮減模型大小並改善延遲時間
  • 您可以在強大的管道圖表介面中檢查每個 AutoML 元件,查看轉換後的資料表、評估的模型架構,以及更多詳細資料。
  • 每個 AutoML 元件都享有更高的彈性和透明度,例如可自訂參數、硬體、查看程序狀態和記錄等。

輸入/輸出

  • 使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容。
  • 產生 Vertex AI 模型做為輸出內容。
  • 中間輸出內容包括資料集統計資料和資料集分割作業。

詳情請參閱端對端 AutoML 的資料表格式工作流程

TabNet 適用的 Tabular Workflow

TabNet 適用的 Tabular Workflow 是用於訓練分類或迴歸模型的管道。TabNet 會運用順序注意力,選擇每個決策步驟要以哪些特徵進行推論。這麼做可提升解讀性,並提高學習效率,因為學習能力會用於最顯著的特徵。

優點

  • 根據資料集大小、推論類型和訓練預算,自動選取適當的超參數搜尋空間。
  • 已整合 Vertex AI。經過訓練的模型是 Vertex AI 模型。您可以立即執行批次推論,或部署模型以進行線上推論。
  • 提供內在的模型可解釋性。您可以深入瞭解 TabNet 用於做出決策的特徵。
  • 支援 GPU 訓練。

輸入/輸出

使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容,並提供 Vertex AI 模型做為輸出內容。

詳情請參閱「TabNet 的資料欄工作流程」。

廣度和深度學習適用的 Tabular Workflow

廣度和深度學習適用的 Tabular Workflow 是用來訓練分類或迴歸模型的管道。「廣度和深度」會一同訓練廣度線性模型和深層類神經網路,兼具記憶和一般化的能力。在某些線上實驗中,結果顯示與僅 wide 和僅 deep 模型相比,Wide & Deep 大幅提升了 Google 商店應用程式獲取次數。

優點

  • 已整合 Vertex AI。經過訓練的模型是 Vertex AI 模型。您可以立即執行批次推論,或部署模型以進行線上推論。

輸入/輸出

使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容,並提供 Vertex AI 模型做為輸出內容。

詳情請參閱「廣度和深度學習適用的 Tabular Workflow」。

用於預測的表格工作流程

預測的表格工作流程

預測的「表格工作流程」是預測工作完整的管道。這項工具與 AutoML API 類似,但可讓您選擇要控制和自動化的項目。您可以為管道中的每個步驟設定控制項,而非為整個管道設定控制項。管道控制項包括:

  • 資料分割
  • 特徵工程
  • 架構搜尋
  • 模型訓練
  • 模型集成

優點

  • 支援大型資料集,大小上限為 1 TB,最多可包含 200 個欄。
  • 您可以限制架構類型的搜尋空間或略過架構搜尋,提高穩定性並縮短訓練時間
  • 您可以手動選取用於訓練和架構搜尋的硬體,提升訓練速度
  • 您可以變更集合大小,縮減模型大小並改善延遲時間
  • 您可以在強大的管道圖表介面中檢查每個元件,查看轉換後的資料表、評估的模型架構,以及更多詳細資料。
  • 每個元件都會享有更高的彈性和透明度,例如能夠自訂參數、硬體、查看程序狀態和記錄等。

輸入/輸出

  • 使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容。
  • 產生 Vertex AI 模型做為輸出內容。
  • 中間輸出內容包括資料集統計資料和資料集分割。

詳情請參閱「預測的資料化表工作流程」。

後續步驟