本節將說明 Vertex AI 服務,協助您在機器學習 (ML) 工作流程中導入機器學習運作 (MLOps)。
模型部署完成後,必須持續追蹤環境中變動的資料,才能維持最佳效能並保持相關性。MLOps 是一組做法,可改善機器學習系統的穩定性和可靠性。
Vertex AI MLOps 工具可協助 AI 團隊進行協作,並透過預測模型監控、警示、診斷和可行解釋,改善模型品質。所有工具都是模組化工具,因此您可以視需要將這些工具整合至現有系統。
如要進一步瞭解機器學習運作,請參閱「機器學習的持續推送軟體更新與自動化管道」和「機器學習運作從業人員指南」。
協調工作流程:手動訓練及提供模型可能耗時且容易出錯,特別是如果您需要多次重複執行這項程序時。
- Vertex AI Pipelines 可協助您自動化處理、監控及管理機器學習工作流程。
追蹤機器學習系統中使用的中繼資料:在資料科學中,追蹤機器學習工作流程中使用的參數、構件和指標非常重要,尤其是在重複執行工作流程時。
- Vertex 機器學習中繼資料可讓您記錄機器學習系統中使用的中繼資料、參數和構件。接著,您可以查詢該中繼資料,以便分析、偵錯及稽核機器學習系統或該系統產生的構件效能。
找出最適合用途的模型:嘗試新的訓練演算法時,您需要知道哪個經過訓練的模型效能最佳。
Vertex AI Experiments 可讓您追蹤及分析不同的模型架構、超參數和訓練環境,找出最適合用途的模型。
Vertex AI TensorBoard 可協助您追蹤、以視覺化方式呈現及比較機器學習實驗,以評估模型成效。
管理模型版本:將模型新增至中央存放區,有助於追蹤模型版本。
- Vertex AI Model Registry 會顯示模型總覽,方便您更妥善地整理、追蹤及訓練新版本。您可以透過 Model Registry 評估模型、將模型部署至端點、建立批次推論,以及查看特定模型和模型版本的詳細資料。
管理特徵:如果您要在多個團隊之間重複使用機器學習特徵,就需要快速且有效率的方式來分享及提供這些特徵。
- Vertex AI 特徵儲存庫提供集中式存放區,可用於整理、儲存及提供機器學習功能。使用集中式特徵儲存庫可讓組織大規模重複使用機器學習功能,並加快開發及部署新機器學習應用程式的速度。
監控模型品質:在正式環境中部署的模型,在與訓練資料相似的推論輸入資料上,才能發揮最佳效能。如果輸入資料與模型訓練資料不同,即使模型本身沒有變動,效能也可能會降低。
- Vertex AI Model Monitoring 會監控模型的訓練/服務偏差和推論偏移情形,並在傳入的推論資料與訓練基準值差距過大時,傳送快訊通知您。您可以使用警示和功能分布來評估是否需要重新訓練模型。
擴充 AI 和 Python 應用程式:Ray 是開放原始碼架構,可用於擴充 AI 和 Python 應用程式。Ray 提供基礎架構,可為機器學習 (ML) 工作流程執行分散式運算和平行處理作業。
- Vertex AI 中的 Ray 可讓您使用相同的開放原始碼 Ray 程式碼,在 Vertex AI 上編寫程式和開發應用程式,且只需進行少量變更。接著,您可以使用 Vertex AI 與其他服務的整合功能,例如 Vertex AI 推論和 BigQuery,作為機器學習 (ML) 工作流程的一部分。 Google Cloud