AI 和機器學習觀點:成本最佳化

Last reviewed 2025-05-28 UTC

這份架構完善的 AI 和機器學習觀點文件,提供原則和建議總覽,協助您在整個機器學習生命週期中,盡量降低 AI 系統的成本。只要採用主動式且明智的成本管理方法,貴機構就能充分發揮 AI 和機器學習系統的潛力,同時維持財務紀律。本文中的建議與 Google Cloud 良好架構架構的成本最佳化支柱一致。

AI 和機器學習系統可協助您從資料中發掘寶貴的洞察資訊,並提供預測功能。舉例來說,您可以減少內部流程的阻礙提升使用者體驗,以及深入瞭解顧客洞察。雲端提供大量資源,可快速產生價值,不必預先投入大量資金,就能處理 AI 和機器學習工作負載。如要盡量提升商業價值,並讓支出符合業務目標,您需要瞭解成本驅動因素、主動最佳化成本、設定支出控管,以及採用 FinOps 做法。

這份文件中的建議對應至下列核心原則:

定義及評估費用和報酬

如要在 Google Cloud中有效管理 AI 和機器學習成本,您必須定義及評估雲端資源成本,以及 AI 和機器學習計畫的業務價值。為協助您精細追蹤支出, Google Cloud 提供完善的帳單和費用管理工具,例如:

  • Cloud Billing 報表和表格
  • Looker Studio 資訊主頁、預算和快訊
  • Cloud Monitoring
  • Cloud Logging

如要根據充分資訊做出資源分配和最佳化決策,請參考下列建議。

設定業務目標和 KPI

根據業務目標和主要成效指標 (KPI),為 AI 和機器學習專案做出適當的技術選擇。

定義策略目標和以投資報酬率為重點的 KPI

確保 AI 和機器學習專案符合收益成長、降低成本、顧客滿意度和效率等策略目標。與利害關係人互動,瞭解業務優先事項。定義明確、可衡量、可達成、相關且有時限 (SMART) 的 AI 和機器學習目標。舉例來說,SMART 目標可以是:「在 6 個月內,透過使用 AI 聊天機器人,將客戶服務的即時通訊處理時間縮短 15%」。

如要達成業務目標並評估投資報酬率 (ROI),請為下列指標類別定義 KPI:

  • 訓練、推論、儲存空間和網路資源的費用,包括特定單位成本 (例如每次推論、資料點或工作的費用)。這些指標有助於深入瞭解效率和成本最佳化商機。您可以使用 Cloud Billing 報表Cloud Monitoring 資訊主頁追蹤這些費用。
  • 業務價值指標,例如收益成長、節省成本、顧客滿意度、效率、準確度和採用率。您可以使用 BigQuery AnalyticsLooker 資訊主頁追蹤這些指標。
  • 特定產業的指標,例如:

    • 零售業:評估收益升幅和流失率
    • 醫療保健業:評估病患時間和病患結果
    • 金融業:評估詐欺減少情形
  • 專案專屬指標。您可以使用 Vertex AI Experiments評估功能追蹤這些指標。

    • 預測型 AI:評估準確度和精確度
    • 生成式 AI:評估採用率、滿意度和內容品質
    • 電腦視覺 AI:評估準確度

培養成本意識,並持續進行最佳化

採用 FinOps 原則,確保每個 AI 和機器學習專案都有預估成本,並在整個生命週期中,有方法可衡量及追蹤實際成本。確保專案的成本和業務效益已指派擁有者,並明確劃分責任歸屬。

詳情請參閱 Google Cloud 架構完善架構的「成本最佳化」支柱,瞭解如何培養成本意識文化

透過疊代和意見回饋提升價值並持續最佳化

直接將 AI 和機器學習應用程式對應至業務目標,並評估投資報酬率。

如要驗證投資報酬率假設,請先進行先導專案,並使用下列疊代最佳化週期:

  1. 持續監控及分析資料:監控 KPI 和費用,找出偏差值和最佳化機會。
  2. 根據資料洞察結果進行調整:根據資料洞察結果,最佳化策略、模型、基礎架構和資源分配。
  3. 反覆調整:根據所學內容和不斷變化的業務需求,調整業務目標和 KPI。這個疊代程序有助於維持關聯性及策略一致性。
  4. 建立意見回饋迴路:與利害關係人一同檢視成效、費用和價值,做為持續最佳化和未來專案規劃的依據。

使用 Cloud Billing 和標籤管理帳單資料

如要有效節省成本,您必須瞭解各項成本元素的來源。本節的建議可協助您使用 Google Cloud工具,深入瞭解 AI 和機器學習費用。您也可以將成本歸因於特定 AI 和 ML 專案、團隊和活動。這些洞察資料是成本最佳化的基礎。

整理及標記 Google Cloud 資源

  • 以階層結構組織專案和資源,反映您的機構結構和 AI/ML 工作流程。如要追蹤及分析不同層級的費用,請使用機構、資料夾和專案來整理 Google Cloud 資源。詳情請參閱「為登陸區決定資源階層 Google Cloud 」。
  • 為資源套用有意義的標籤。您可以使用的標籤包括專案、團隊、環境、模型名稱、資料集、用途和效能需求。標籤可為帳單資料提供實用背景資訊,並進行精細的費用分析。
  • 在所有 AI 和機器學習專案中,標籤慣例應保持一致。一致的標籤慣例可確保帳單資料井然有序,方便分析。
  • 如要進行詳細分析和產生報表,請將帳單資料匯出至 BigQuery。 BigQuery 具備強大的查詢功能,可讓您分析帳單資料,瞭解相關費用。
  • 如要依標籤、專案或特定時間範圍匯總費用,您可以在 BigQuery 中編寫自訂 SQL 查詢。這類查詢可讓您將費用歸因於特定 AI 和機器學習活動,例如模型訓練、超參數調整或推論。
  • 如要找出費用異常或支出暴增的情況,請使用 BigQuery 的分析功能。這種做法有助於偵測 AI 和機器學習工作負載的潛在問題或效率低落情況。
  • 如要找出及管理意外費用,請使用 Cloud Billing 中的異常偵測資訊主頁
  • 如要根據資源用量在不同團隊或部門之間分配費用,請使用 Google Cloud的費用分配功能。成本分配有助於推動當責文化和資訊公開。
  • 如要深入瞭解支出模式,請查看預先建構的 Cloud Billing 報表。您可以篩選及自訂這些報表,著重分析特定 AI 和 ML 專案或服務。

使用資訊主頁、快訊和報表持續監控資源

如要建立可擴充且彈性的費用追蹤方式,您需要持續監控及產生報表。資訊主頁、快訊和報表是有效追蹤費用的基礎。有了這項基礎,您就能持續存取費用資訊、找出可最佳化的領域,並確保業務目標與費用相符。

建立回報系統

建立定期報表,並與適當的利害關係人分享。

使用 Cloud Monitoring 從各種來源收集指標,包括應用程式、基礎架構和服務,例如 Compute Engine、Google Kubernetes Engine (GKE) 和 Cloud Run 函式。 Google Cloud 如要即時查看指標和記錄,可以使用預先建構的 Cloud Monitoring 資訊主頁,或建立自訂資訊主頁。自訂資訊主頁可讓您定義及新增指標,追蹤系統的特定層面,例如模型效能、API 呼叫或業務層級 KPI。

使用 Cloud Logging 集中收集及儲存應用程式、系統和服務的記錄。 Google Cloud 記錄的用途如下:

  • 追蹤 CPU、記憶體、儲存空間和網路等資源的費用和使用情形。
  • 找出資源過度佈建 (資源未充分運用) 和佈建不足 (資源不足) 的情況。過度佈建會導致不必要的費用。如果資源不足,訓練時間就會變慢,而且可能會導致效能問題。
  • 找出閒置或使用率偏低的資源 (例如 VM 和 GPU),然後採取行動關閉或調整這些資源的大小,以節省費用。
  • 找出費用暴增的情況,偵測資源用量或費用是否突然意外增加。

使用 LookerLooker Studio 建立互動式資訊主頁和報表。將資訊主頁和報表連結至各種資料來源,包括 BigQuery 和 Cloud Monitoring。

根據重要 KPI 設定快訊門檻

針對 KPI,判斷應觸發快訊的門檻。有意義的警示門檻可協助您避免警示疲乏。在 Cloud Monitoring 中建立快訊政策,以便接收與 KPI 相關的通知。舉例來說,當準確度低於特定門檻或延遲時間超過定義的上限時,您會收到通知。以記錄資料為基礎的快訊可即時通知您潛在的費用問題。這類快訊可協助您立即採取修正措施,避免進一步的財務損失。

最佳化資源分配

如要在 Google Cloud中提高 AI 和機器學習工作負載的成本效益,請務必最佳化資源分配。為避免不必要的支出,並確保工作負載有足夠的資源可發揮最佳效能,請根據工作負載需求分配資源。

如要最佳化雲端資源的分配,以供 AI 和機器學習工作負載使用,請參考下列建議。

運用自動調度資源功能動態調整資源

使用支援自動調度資源的 Google Cloud 服務,自動調整資源分配,以符合目前需求。自動調度資源有下列優點:

  • 成本和效能最佳化:避免支付閒置資源的費用。同時,自動調度資源功能可確保系統具備必要的資源,即使在負載量達到高峰時,也能發揮最佳效能。
  • 提升效率:讓團隊專注於其他工作。
  • 提高靈活度:您可以快速因應不斷變化的需求,並維持應用程式的高可用性。

下表摘要說明可用於實作自動調整資源配置的技術,適用於 AI 專案的不同階段。

階段 自動調度資源技術
訓練
  • 使用 Vertex AIGKE 等代管服務,這些服務提供訓練作業的內建自動調度資源功能。
  • 設定自動調度資源政策,根據 CPU 使用率、記憶體用量和工作佇列長度等指標,調度訓練例項數量。
  • 使用自訂調度指標,針對特定工作負載微調自動調度行為。
推論
  • 在可擴充的平台 (例如 Vertex AI InferenceGKE 上的 GPUGKE 上的 TPU) 部署模型。
  • 使用自動調度資源功能,根據要求比率、延遲時間和資源用量等指標調整副本數量。
  • 實作負載平衡,在副本之間平均分配流量,確保高可用性。

從小型模型和資料集著手

為降低成本,請盡可能以小規模測試機器學習假設,並採用疊代式方法。使用較小的模型和資料集,可帶來下列優點:

  • 從一開始就降低成本:減少運算能力、儲存空間和處理時間,有助於在初步實驗和開發階段降低成本。
  • 加快疊代速度:訓練時間較短,因此您可以加快疊代速度、探索替代方法,並更有效率地找出有希望的方向。
  • 降低複雜度:簡化偵錯、分析和解讀結果的程序,加快開發週期。
  • 有效運用資源:降低資源過度佈建的機率。您只需要佈建目前工作負載所需的資源。

請參考下列建議:

  • 先使用樣本資料:根據資料的代表性子集訓練模型。這種做法可讓您評估模型成效,並找出潛在問題,不必處理整個資料集。
  • 使用筆記本進行實驗:先從較小的執行個體著手,再視需要調整規模。您可以使用 Vertex AI Workbench,這是代管的 Jupyter 筆記本環境,非常適合用來實驗不同的模型架構和資料集。
  • 從較簡單或預先訓練的模型開始:使用 Vertex AI Model Garden 探索預先訓練的模型。這類模型所需的運算資源較少。視效能需求,逐步提高複雜度。

    • 使用預先訓練模型執行圖片分類和自然語言處理等工作。如要節省訓練費用,一開始可以先使用較小的資料集微調模型。
    • 使用BigQuery ML 處理結構化資料。BigQuery ML 可讓您直接在 BigQuery 中建立及部署模型。這種做法可充分利用 BigQuery 的查詢計價模式,因此非常適合初步實驗,經濟實惠。
  • 資源調度最佳化:使用 Google Cloud的彈性基礎架構,視需要調度資源。先從較小的執行個體開始,並視需要調整大小或數量。

透過實驗找出資源需求

AI 和機器學習工作負載的資源需求可能差異很大。如要盡量減少資源分配和成本,您必須透過系統化實驗瞭解工作負載的具體需求。如要找出最有效率的模型設定,請測試不同設定並分析其效能。然後根據需求,將用於訓練和服務的資源調整至最適規模。

我們建議採用下列實驗方法:

  1. 從基準開始:根據您對工作負載需求的初步估算,從基準設定開始。如要建立基準,您可以使用新工作負載的費用估算工具,或使用現有的帳單報表。詳情請參閱「Unlock the true cost of enterprise AI on Google Cloud」。
  2. 瞭解配額:開始大規模實驗前,請先熟悉您打算使用的資源和 API 的 Google Cloud 專案配額。配額會決定您實際可測試的設定範圍。熟悉配額後,您就能在實驗階段使用可用的資源限制。
  3. 有系統地進行實驗:調整 CPU 數量、記憶體量、GPU 和 TPU 數量與類型,以及儲存空間容量等參數。Vertex AI 訓練Vertex AI 預測可讓您試用不同的機器類型和設定。
  4. 監控使用率、費用和效能:追蹤資源使用率、費用,以及訓練時間、推論延遲和模型準確度等重要效能指標,瞭解您實驗的每項設定。

    • 如要追蹤資源使用率和效能指標,請使用 Vertex AI 控制台。
    • 如要收集及分析詳細的效能指標,請使用 Cloud Monitoring。
    • 如要查看費用,請使用 Cloud Billing 報表Cloud Monitoring 資訊主頁
    • 如要找出模型中的效能瓶頸並盡量提高資源使用率,請使用 Vertex AI TensorBoard 等剖析工具。
  5. 分析費用:比較各項設定的費用和效能,找出最具成本效益的選項。

  6. 根據配額設定資源門檻和改善目標: 定義門檻,當資源調度開始產生遞減的成效回報時,例如訓練時間或延遲時間的減少幅度極小,但成本卻大幅增加,設定這些門檻時,請考慮專案配額。判斷成本和進一步擴充的潛在配額影響,是否不再能以效能提升來證明合理性。

  7. 反覆調整:根據測試結果,以調整後的設定重複進行實驗。請務必確保資源用量維持在配額範圍內,並符合既定的成本效益門檻。

使用 MLOps 減少效率不彰的情況

隨著機構越來越常使用機器學習技術來推動創新和提升效率,有效管理機器學習生命週期也變得至關重要。機器學習運作 (MLOps) 是一組做法,可自動化及簡化機器學習生命週期,從模型開發到部署和監控皆適用。

根據成本驅動因素調整機器學習運作

如要運用 MLOps 提升成本效益,請找出機器學習生命週期中的主要成本驅動因素。接著,您可以採用並導入符合成本驅動因素的 MLOps 做法。優先採用 MLOps 功能,解決影響最大的成本因素。這種做法可確保您能順利節省大量成本。

導入機器學習運作,實現成本最佳化

以下是常見的 MLOps 做法,有助於降低成本:

  • 版本管控:Git 等工具可協助您追蹤程式碼、資料和模型的版本。版本控管可確保結果可重現、促進協作,並避免因版本問題造成成本高昂的重工。
  • 持續整合與持續推送軟體更新 (CI/CD)Cloud BuildArtifact Registry 可讓您實作 CI/CD 管道,自動建構、測試及部署 ML 模型。CI/CD 管道可確保資源得到有效利用,並盡量減少手動介入所產生的相關費用。
  • 可觀測性Cloud MonitoringCloud Logging 可讓您追蹤模型在正式環境中的效能、找出問題,以及觸發警報以主動介入。可觀測性有助於維持模型準確度、調整資源分配,以及避免代價高昂的停機或效能下降問題。
  • 模型重新訓練Vertex AI Pipelines 可簡化定期重新訓練模型或模型效能下降時的程序。使用 Vertex AI Pipelines 重新訓練模型,有助於確保模型維持準確度和效率,避免不必要的資源耗用,並維持最佳效能。
  • 自動測試和評估Vertex AI 可協助您加快模型評估速度並標準化。在整個機器學習生命週期中實作自動化測試,確保模型品質和可靠性。這類測試有助於及早發現錯誤、避免實際運作時發生代價高昂的問題,並減少大量手動測試的需求。

詳情請參閱「機器學習運作:機器學習的持續推送軟體更新與自動化管線」。

落實資料管理和治理實務

有效的資料管理和控管做法對於成本最佳化至關重要。妥善整理資料可鼓勵團隊重複使用資料集、避免不必要的重複作業,並減少取得高品質資料所需的工作量。主動管理資料可降低儲存空間費用、提升資料品質,並確保機器學習模型以最相關且有價值的資料進行訓練。

如要實作資料管理和治理做法,請考慮採用下列建議。

建立及採用資料管理架構

隨著 AI 和 ML 越來越重要,資料已成為數位轉型機構最有價值的資產。健全的資料治理架構是重要條件,有助於以經濟實惠的方式大規模管理 AI 和機器學習工作負載。明確定義政策、程序和角色的資料管理架構,可提供結構化方法,在資料的整個生命週期中進行管理。這類架構有助於提升資料品質、強化安全性、提高使用率及減少冗餘。

建立資料管理架構

資料控管有許多現成架構,例如 EDM Council 發布的架構,適用於不同產業和機構規模。選擇並調整符合您特定需求和優先事項的架構。

實作資料治理架構

Google Cloud 提供下列服務和工具,協助您導入完善的資料治理架構:

  • Dataplex Universal Catalog 是智慧型資料架構,可協助您整合分散式資料,並自動執行資料治理,不必將資料集集中在一個位置。這有助於降低資料發布和維護成本、促進資料探索,以及推動重複使用。

  • Dataplex Universal Catalog 也是可擴充的全代管中繼資料管理服務。目錄可確保資料資產可供存取及重複使用,奠定資料控管的基礎。

    • 系統會自動將支援 Google Cloud 來源的中繼資料擷取至通用目錄。如要使用 Google Cloud以外的資料來源,請建立自訂項目
    • 如要提升資料資產的探索和管理能力,請使用層面,以業務中繼資料充實技術中繼資料。
    • 確認資料科學家和 ML 實務人員有足夠的權限,可存取 Dataplex Universal Catalog 並使用搜尋功能。
  • BigQuery 共用功能可讓您安全又有效率地跨機構交換資料資產,解決資料可靠性和成本方面的難題。

    • 設定資料交換,並確保精選資料資產可做為商家資訊查看。
    • 使用資料無塵室安全地管理機密資料的存取權,並與外部團隊和機構有效合作,共同進行 AI 和 ML 專案。
    • 請確保資料科學家和機器學習從業人員具備足夠的權限,可查看資料集並發布至 BigQuery 共用。

在整個機器學習生命週期中重複使用資料集和特徵

為大幅提升效率和節省成本,請在多個機器學習專案中重複使用資料集和特徵。避免重複的資料工程和特徵開發工作,有助於貴機構加速模型開發、降低基礎架構成本,並將寶貴資源用於其他重要工作。

Google Cloud 提供下列服務和工具,協助您重複使用資料集和特徵:

  • 資料和機器學習從業人員可以發布資料產品,盡量讓各團隊重複使用。接著,即可透過 Dataplex Universal Catalog 和 BigQuery 共用功能,探索及使用資料產品。
  • 對於表格和結構化資料集,您可以使用 Vertex AI 特徵儲存庫,透過 BigQuery 提升重複使用率並簡化特徵管理。
  • 您可以在 Cloud Storage 中儲存非結構化資料,並使用 BigQuery 物件資料表和簽署網址控管資料。
  • 您可以在向量搜尋索引中加入中繼資料,藉此管理向量嵌入。

透過機器學習運作機制自動化及簡化作業

採用機器學習運作做法的主要好處是降低技術和人員成本。自動化功能可協助您避免重複執行機器學習活動,並減少數據資料學家和機器學習工程師的工作量。

如要透過機器學習運作自動化及簡化機器學習開發作業,請考慮下列建議。

自動收集及處理資料,並將程序標準化

為減少機器學習開發工作和時間,請自動化及標準化資料收集和處理技術。

自動收集及處理資料

本節將摘要說明可用於自動收集及處理資料的產品、工具和技術。

找出並選擇適合 AI 和機器學習工作的資料來源:

為每個資料來源選擇擷取工具:

  • Dataflow:用於批次和串流處理來自各種來源的資料,並整合機器學習元件。對於事件驅動架構,您可以將 Dataflow 與 Eventarc 結合,有效處理機器學習資料。如要提升 MLOps 和機器學習工作效率,請使用 GPU 和最適資源配置功能。
  • Cloud Run 函式: 適用於事件驅動型資料擷取,由資料來源的變更觸發,適用於即時應用程式。
  • BigQuery:用於經常存取的傳統表格資料擷取作業。

選擇資料轉換和載入工具:

  • 使用 DataflowDataform 等工具,自動執行資料轉換作業,例如特徵縮放、編碼類別變數,以及批次、串流或即時建立新特徵。選取的工具取決於您的需求和所選服務。
  • 使用 Vertex AI 特徵儲存庫自動建立及管理特徵。您可以集中管理特徵,以便在不同模型和專案中重複使用。

標準化資料收集和處理程序

如要探索、瞭解及管理資料資產,請使用 Dataplex Universal Catalog 等中繼資料管理服務。有助於統一資料定義,確保整個機構的資料一致性。

如要強制執行標準化,並避免維護多個自訂實作項目所產生的費用,請使用自動化訓練管道和調度管理。詳情請參閱下一節。

自動化訓練管道並重複使用現有資產

如要提升機器學習運作的效率和生產力,自動化訓練管道至關重要。 Google Cloud 提供一系列強大的工具和服務,可建構及部署訓練管道,並著重於重複使用現有資產。自動化訓練管道有助於加快模型開發速度、確保一致性,並減少重複作業。

自動化訓練管線

下表說明可用於自動執行訓練管道不同功能的 Google Cloud 服務和功能。

函式 Google Cloud 服務和功能
調度:定義由多個步驟和依附元件組成的複雜機器學習工作流程。您可以將每個步驟定義為個別的容器化工作,輕鬆管理及擴展個別工作。
  • 如要建立及自動調度管理管道,請使用 Vertex AI Pipelines 或 Kubeflow Pipelines。這些工具支援簡單的資料轉換、模型訓練、模型部署和管道版本管理。您可以藉此定義步驟之間的依附元件、管理資料流程,以及自動執行整個工作流程。
  • 如要執行複雜的作業工作,且有大量的 CI/CD 和擷取、轉換及載入 (ETL) 需求,請使用 Cloud Composer。 如果您偏好使用 Airflow 進行資料自動調度管理,Cloud Composer 是以 Airflow 為基礎的相容代管服務。
  • 如要管理 Vertex AI Pipelines 以外的管道,請使用工作流程執行基礎架構相關工作,例如啟動及停止 VM,或與外部系統整合。
  • 如要自動執行 CI/CD 程序,請搭配使用 Cloud BuildPub/Sub。 您可以設定通知和自動觸發條件,在推送新程式碼或需要訓練新模型時觸發。
  • 如要使用全代管的可擴充管道管理解決方案,請使用 Cloud Data Fusion
版本管理:追蹤及控管不同版本的 pipeline 和元件,確保可重現性和可稽核性。 Artifact Registry 的 Kubeflow Pipelines 存放區中,儲存 Kubeflow 管道範本。
可重複使用:重複使用現有的管道元件和構件,例如準備好的資料集和訓練好的模型,加快開發速度。 將管道範本儲存在 Cloud Storage 中,並在整個機構中分享。
監控:監控管道執行作業,找出並解決任何問題。 使用 Cloud Logging 和 Cloud Monitoring。詳情請參閱「使用資訊主頁、快訊和報表持續監控資源」。

擴大管道以外的重複使用範圍

尋找機會,將可重複使用的項目擴展到訓練 pipeline 以外。以下是 Google Cloud 功能的範例,可讓您重複使用 ML 功能、資料集、模型和程式碼。

  • Vertex AI 特徵儲存庫是可供整理、儲存和提供機器學習特徵的集中存放區。您可以在不同專案和模型中重複使用特徵,提升一致性並減少特徵工程工作。您可以儲存、分享及存取線上和離線用途的功能。
  • Vertex AI 資料集可讓團隊集中建立及管理資料集,因此貴機構可以盡量重複使用資料,並減少資料重複。團隊可以使用 Dataplex Universal Catalog 搜尋及探索資料集。
  • Vertex AI Model Registry 可讓您儲存、管理及部署訓練好的模型。模型登錄可讓您在後續管道或線上預測中重複使用模型,充分利用先前的訓練工作。
  • 自訂容器可讓您將訓練程式碼和依附元件封裝到容器中,並將容器儲存在 Artifact Registry。自訂容器可讓您在不同管道和專案中,提供一致且可重現的訓練環境。

使用 Google Cloud 服務評估及調整模型

Google Cloud 提供強大的工具和服務套件,可簡化及自動化模型評估和調整作業。這些工具和服務可協助您縮短投入生產的時間,並減少持續訓練和監控所需的資源。使用這些服務,AI 和機器學習團隊就能以較少的昂貴疊代次數提升模型效能、更快獲得結果,並盡量減少運算資源浪費。

使用資源效率高的模型評估和實驗

在擴大解決方案規模前,先透過實驗開始進行 AI 專案。在實驗中,追蹤各種中繼資料,例如資料集版本、模型參數和模型類型。如要進一步重現及比較結果,請使用中繼資料追蹤功能,以及程式碼版本控管功能 (類似於 Git 的功能)。為避免遺漏資訊或在正式環境中部署錯誤版本,請先使用 Vertex AI Experiments,再全面部署或訓練工作。

Vertex AI Experiments 可讓您執行下列操作:

  • 透過容易使用的 UI 和 API,簡化並自動化中繼資料追蹤和探索作業,以利處理正式版工作負載。
  • 分析模型的成效指標,並比較多個模型的指標。

模型訓練完成後,請持續監控一段時間,瞭解模型對傳入資料的成效和資料漂移情形。如要簡化這個程序,請使用 Vertex AI Model Monitoring,直接存取 Model Registry 中建立的模型。模型監控功能也會透過線上和批次預測,自動監控資料和結果。您可以將結果匯出至 BigQuery,進行進一步分析和追蹤。

選擇最佳策略,自動執行訓練

如要調整超參數,建議採取下列做法:

  • 如要自動找出模型的最佳超參數,請使用 Vertex AI 超參數調整。Vertex AI 會使用進階演算法探索超參數空間,並找出最佳設定。
  • 如要有效率地調整超參數,請考慮使用貝氏最佳化技術,特別是處理複雜模型和大型資料集時。

如要進行分散式訓練,建議採取下列方法:

  • 如果是大型資料集和複雜模型,請使用 Vertex AI 的分散式訓練基礎架構。這種做法可讓您在多部機器上訓練模型,大幅縮短訓練時間並降低相關成本。使用下列工具:

  • 選擇支援分散式訓練和有效運用資源的機器學習最佳化架構,例如 Keras 和 PyTorch。

使用 Explainable AI

瞭解模型做出特定決策的原因,並找出潛在偏誤或可改進之處,至關重要。使用 Vertex Explainable AI 深入瞭解模型的預測結果。Vertex Explainable AI 可自動產生與 Vertex AI 實驗相關的特徵和範例說明。

  • 以特徵為準:如要瞭解哪些特徵對模型預測結果的影響最大,請分析特徵歸因。 這項瞭解有助於引導特徵工程工作,並提升模型可解釋性。
  • 以範例為準: 如要傳回與輸入內容最相似的樣本清單 (通常來自訓練集),Vertex AI 會使用最鄰近搜尋。由於類似的輸入內容通常會產生類似的預測結果,因此您可以運用這些說明來探索及解釋模型的行為。

使用代管服務和預先訓練模型

採用漸進式方法選取及開發模型。這種做法可協助您避免每次都從頭開始,因而產生過多費用。如要控管費用,請使用機器學習架構、代管服務和預先訓練的模型。

如要充分發揮代管服務和預先訓練模型的價值,請參考下列建議。

使用筆記本探索及實驗

筆記本環境對於經濟實惠的 ML 實驗至關重要。筆記本提供互動式協作空間,方便資料科學家和工程師探索資料、開發模型、分享知識,以及有效率地疊代。透過筆記本協作及分享知識,可大幅加快開發、程式碼審查和知識轉移的速度。筆記本有助於簡化工作流程,減少重複作業。

您不必為開發環境採購及管理昂貴的硬體,而是可以運用 Vertex AI Workbench 和 Colab Enterprise 的可擴充隨選基礎架構。

  • Vertex AI Workbench 是 Jupyter 筆記本開發環境,適用於整個數據資料學工作流程。您可以透過執行個體的 Jupyter 筆記本,與 Vertex AI 和其他服務互動。 Google CloudVertex AI Workbench 整合功能和功能可協助您執行下列操作:

    • 使用 BigQuery 和 Cloud Storage 整合功能,在 Jupyter 筆記本中存取及探索資料。
    • 使用在 Vertex AI 上執行的排定程式碼,自動更新模型。
    • 在 Dataproc 叢集中執行筆記本,快速處理資料。
    • 使用 Vertex AI Pipelines,將筆記本做為管道中的步驟執行。
  • Colab Enterprise 是協作式的代管筆記本環境,具備 Google Cloud的安全性和法規遵循功能。如果專案的優先事項包括協同開發,以及減少管理基礎架構的工作量,Colab Enterprise 就是理想選擇。Colab Enterprise 整合了Google Cloud 服務和 AI 輔助功能,後者採用 Gemini 技術。Colab Enterprise 可讓您執行下列操作:

    • 在筆記本中工作,不必管理基礎架構。
    • 與單一使用者、Google 群組或 Google Workspace 網域共用筆記本,您可以透過 Identity and Access Management (IAM) 控管筆記本存取權。
    • 與 Vertex AI 和 BigQuery 內建的功能互動。

如要追蹤變更並在必要時還原至先前的版本,您可以將筆記本與 Git 等版本管控工具整合。

從現有和預先訓練的模型開始

從頭開始訓練複雜模型 (尤其是深度學習模型) 需要大量運算資源和時間。如要加快模型選取和開發程序,請從現有和預先訓練的模型著手。這些模型是以大量資料集訓練而成,因此不必從頭訓練模型,可大幅降低成本並縮短開發時間。

降低訓練和開發成本

為每項機器學習工作選取合適的模型或 API,然後結合這些模型或 API,建立端對端機器學習開發程序。

Vertex AI Model Garden 提供大量預先訓練模型,可執行圖像分類、物件偵測和自然語言處理等工作。模型會分組為下列類別:

Google Cloud 提供 AI 和機器學習 API,讓開發人員將強大的 AI 功能整合至應用程式,不必從頭建構模型。

  • Cloud Vision API 可讓您從圖片取得深入分析。這項 API 非常適合用於圖片分析、內容審查和自動資料輸入等應用程式。
  • Cloud Natural Language API 可分析文字,瞭解其結構和意義。這項 API 適用於顧客意見回饋分析、內容分類和瞭解社群媒體趨勢等工作。
  • Speech-to-Text API 可將音訊轉換成文字。這項 API 支援多種語言和方言。
  • Video Intelligence API 會分析影片內容,找出物件、場景和動作。使用這個 API 進行影片內容分析、內容審核和影片搜尋。
  • Document AI API 可處理文件,從中擷取、分類及解讀資料。這項 API 可協助您自動執行文件處理工作流程。
  • Dialogflow API 可用於建立對話式介面,例如聊天機器人和語音助理。您可以使用這項 API 建立客戶服務機器人和虛擬助理。
  • Vertex AI 中的 Gemini API 提供 Google 最強大且用途廣泛的 AI 模型。

降低微調成本

如要減少對大量資料和運算時間的需求,請使用特定資料集微調預先訓練模型。建議採取下列做法:

  • 遷移學習:運用預先訓練模型所學的知識來執行新工作,不必從頭開始。這種做法需要的資料和運算時間較少,有助於降低成本。
  • 適應器調整 (高效參數調整): 讓模型適應新工作或領域,不必進行完整微調。這種方法需要的運算資源和資料集都大幅減少。
  • 監督式微調: 使用加上標籤的資料集調整模型行為。這種做法可簡化基礎架構的管理作業,以及自訂訓練作業所需的開發工作。

使用 Vertex AI Studio 探索及實驗

Vertex AI Studio 可讓您快速測試、設計及部署生成式 AI 應用程式。

  • 與 Model Garden 整合:可快速存取最新模型,並有效率地部署模型,節省時間和成本。
  • 統一存取專用模型:集中管理各種預先訓練模型和 API 的存取權,包括用於對話、文字、媒體、翻譯和語音的模型。這個統一存取方式可協助您減少搜尋和整合個別服務所花的時間。

使用代管服務訓練或提供模型

代管服務可協助您降低模型訓練成本,並簡化基礎架構管理作業,讓您專注於模型開發和最佳化。這種做法可大幅節省成本,並提高效率。

減輕作業負擔

如要降低基礎架構管理的複雜度和成本,請使用下列代管服務:

  • Vertex AI 訓練提供全代管環境,可大規模訓練模型。您可以從各種預先建構的容器中選擇熱門的機器學習架構,也可以使用自己的自訂容器。 Google Cloud 會處理基礎架構佈建、擴充和維護作業,因此您產生的營運費用較低。
  • Vertex AI 預測可處理基礎架構擴充、負載平衡和要求路徑。您可享有高可用性和效能,不必手動介入。
  • Vertex AI 上的 Ray 提供全代管的 Ray 叢集。您可以使用叢集執行複雜的自訂 AI 工作負載,進行大量運算 (超參數調整、模型微調、分散式模型訓練,以及根據人類回饋進行強化學習),無須管理自己的基礎架構。

善用代管服務,提高資源使用率

如要瞭解如何有效運用資源,請參閱「最佳化資源用量」。

貢獻者

作者:

其他貢獻者: