表格式工作流程是一組整合、全代管且可擴充的管道,可用於端對端機器學習,並支援表格式資料。這項服務會運用 Google 的技術來開發模型,並提供符合您需求的自訂選項。
優點
- 全代管:您不必擔心更新、依附元件和衝突問題。
- 輕鬆擴充:您不必隨著工作負載或資料集增加而重新設計基礎架構。
- 針對效能進行最佳化:系統會根據工作流程需求自動設定合適的硬體。
- 深度整合:與 Vertex AI MLOps 套件中的產品 (例如 Vertex AI Pipelines 和 Vertex AI Experiments) 相容,可讓您在短時間內執行許多實驗。
技術總覽
每個工作流程都是 Vertex AI Pipelines 的代管執行個體。
Vertex AI Pipelines 是執行 Kubeflow 管道的無伺服器服務。您可以使用管道來自動執行及監控機器學習和資料準備工作。管道中的每個步驟都會執行管道工作流程的一部分。舉例來說,管道可以包含分割資料、轉換資料類型和訓練模型的步驟。由於步驟是管道元件的例項,因此步驟會包含輸入內容、輸出內容和容器映像檔。步驟輸入內容可從管道的輸入內容設定,也可以取決於管道中其他步驟的輸出內容。這些依附元件會將管道的工作流程定義為有向非循環圖。
開始使用
在大多數情況下,您必須使用 Google Cloud Pipeline Components SDK 定義及執行管道。以下程式碼範例可提供說明。請注意,實際的程式碼實作內容可能會有所不同。
// Define the pipeline and the parameters
template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
…
optimization_objective=optimization_objective,
data_source=data_source,
target_column_name=target_column_name
…)
// Run the pipeline
job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
job.run(...)
如需試用版 Colab 和 Notebook,請與業務代表聯絡,或填寫申請表單。
版本管理和維護
表格式工作流程具有有效的版本化系統,可讓您持續更新及改善應用程式,而不會造成任何異動。
每個工作流程都會在 Google Cloud Pipeline 元件 SDK 中發布及更新。任何工作流程的更新和修改內容都會以該工作流程的新版本發布。每個工作流程的舊版一律可透過舊版 SDK 使用。如果 SDK 版本已固定,工作流程版本也會一併固定。
可用的工作流程
Vertex AI 提供下列 Tabular Workflows:
名稱 | 類型 | 適用情況 |
---|---|---|
功能轉換引擎 | 特徵工程 | 公開預先發布版 |
端對端 AutoML | 分類與迴歸 | 正式發布版 |
TabNet | 分類與迴歸 | 公開預先發布版 |
廣度和深度 | 分類與迴歸 | 公開預先發布版 |
預測 | 預測 | 公開預先發布版 |
如需其他資訊和筆記本範例,請與業務代表聯絡,或填寫申請表單。
特徵轉換引擎
特徵轉換引擎會執行特徵選取和特徵轉換作業。如果啟用特徵選取功能,特徵轉換引擎會建立一組重要特徵,並依重要性排序。如果啟用特徵轉換,特徵轉換引擎會處理特徵,確保模型訓練和模型服務的輸入內容一致。特徵轉換引擎可單獨使用,也可以搭配任何表格訓練工作流程使用。同時支援 TensorFlow 和非 TensorFlow 架構。
詳情請參閱「特徵工程」。
分類和迴歸的「表格」工作流程
端對端 AutoML 的資料表工作流程
端對端 AutoML 的 Tabular 工作流程是用於分類和迴歸工作的完整 AutoML 管道。這項功能與 AutoML API 類似,但可讓您選擇要控制和自動執行的項目。您可以為管道中的每個步驟設定控制項,而非為整個管道設定控制項。管道控制項包括:
- 資料分割
- 特徵工程
- 架構搜尋
- 模型訓練
- 模型集成
- 模型精煉
優點
- 支援大型資料集,大小為數 TB,最多可包含 1000 個欄。
- 您可以限制架構類型的搜尋空間或略過架構搜尋,提高穩定性並縮短訓練時間。
- 您可以手動選取用於訓練和架構搜尋的硬體,提升訓練速度。
- 可讓您透過蒸餾或變更集合大小,縮減模型大小並改善延遲時間。
- 您可以在強大的管道圖表介面中檢查每個 AutoML 元件,查看轉換後的資料表、評估的模型架構,以及更多詳細資料。
- 每個 AutoML 元件都享有更高的彈性和透明度,例如可自訂參數、硬體、查看程序狀態和記錄等。
輸入/輸出
- 使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容。
- 產生 Vertex AI 模型做為輸出內容。
- 中間輸出內容包括資料集統計資料和資料集分割作業。
詳情請參閱端對端 AutoML 的資料表格式工作流程。
TabNet 適用的 Tabular Workflow
TabNet 適用的 Tabular Workflow 是用於訓練分類或迴歸模型的管道。TabNet 會運用順序注意力,選擇每個決策步驟要以哪些特徵進行推論。這麼做可提升解讀性,並提高學習效率,因為學習能力會用於最顯著的特徵。
優點
- 根據資料集大小、推論類型和訓練預算,自動選取適當的超參數搜尋空間。
- 已整合 Vertex AI。經過訓練的模型是 Vertex AI 模型。您可以立即執行批次推論,或部署模型以進行線上推論。
- 提供內在的模型可解釋性。您可以深入瞭解 TabNet 用於做出決策的特徵。
- 支援 GPU 訓練。
輸入/輸出
使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容,並提供 Vertex AI 模型做為輸出內容。
詳情請參閱「TabNet 的資料欄工作流程」。
廣度和深度學習適用的 Tabular Workflow
廣度和深度學習適用的 Tabular Workflow 是用來訓練分類或迴歸模型的管道。「廣度和深度」會一同訓練廣度線性模型和深層類神經網路,兼具記憶和一般化的能力。在某些線上實驗中,結果顯示與僅 wide 和僅 deep 模型相比,Wide & Deep 大幅提升了 Google 商店應用程式獲取次數。
優點
- 已整合 Vertex AI。經過訓練的模型是 Vertex AI 模型。您可以立即執行批次推論,或部署模型以進行線上推論。
輸入/輸出
使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容,並提供 Vertex AI 模型做為輸出內容。
詳情請參閱「廣度和深度學習適用的 Tabular Workflow」。
用於預測的表格工作流程
預測的表格工作流程
預測的「表格工作流程」是預測工作完整的管道。這項工具與 AutoML API 類似,但可讓您選擇要控制和自動化的項目。您可以為管道中的每個步驟設定控制項,而非為整個管道設定控制項。管道控制項包括:
- 資料分割
- 特徵工程
- 架構搜尋
- 模型訓練
- 模型集成
優點
- 支援大型資料集,大小上限為 1 TB,最多可包含 200 個欄。
- 您可以限制架構類型的搜尋空間或略過架構搜尋,提高穩定性並縮短訓練時間。
- 您可以手動選取用於訓練和架構搜尋的硬體,提升訓練速度。
- 您可以變更集合大小,縮減模型大小並改善延遲時間。
- 您可以在強大的管道圖表介面中檢查每個元件,查看轉換後的資料表、評估的模型架構,以及更多詳細資料。
- 每個元件都會享有更高的彈性和透明度,例如能夠自訂參數、硬體、查看程序狀態和記錄等。
輸入/輸出
- 使用 Cloud Storage 中的 BigQuery 資料表或 CSV 檔案做為輸入內容。
- 產生 Vertex AI 模型做為輸出內容。
- 中間輸出內容包括資料集統計資料和資料集分割。
詳情請參閱「預測的資料化表工作流程」。
後續步驟
- 瞭解適用於端對端 AutoML 的資料表工作流程。
- 瞭解 TabNet 適用的 Tabular Workflow。
- 瞭解 廣度和深度學習適用的 Tabular Workflow。
- 瞭解預測的表格式工作流程。
- 瞭解特徵工程。
- 瞭解 表格式工作流程的定價。