本頁面由 Cloud Translation API 翻譯而成。

AI 和機器學習觀點：成本最佳化

Last reviewed 2025-05-28 UTC

這份架構完善的 AI 和機器學習觀點文件，提供原則和建議總覽，協助您在整個機器學習生命週期中，盡量降低 AI 系統的成本。只要採取主動且明智的成本管理方法，貴機構就能充分發揮 AI 和機器學習系統的潛力，同時維持財務紀律。本文中的建議與 Google Cloud 良好架構架構的成本最佳化支柱一致。

AI 和機器學習系統可協助您從資料中發掘寶貴的洞察資訊，並提供預測功能。舉例來說，您可以減少內部流程的阻礙、提升使用者體驗，以及深入瞭解顧客洞察。雲端提供大量資源，可快速創造價值，不必預先投入大量資金，就能執行 AI 和機器學習工作負載。如要盡量提升商業價值，並根據業務目標調整支出，您需要瞭解成本驅動因素、主動最佳化成本、設定支出控管，以及採用 FinOps 做法。

這份文件中的建議對應至下列核心原則：

定義及評估費用和報酬

如要在 Google Cloud有效管理 AI 和 ML 成本，您必須定義並評估雲端資源成本，以及 AI 和 ML 計畫的業務價值。為協助您精細追蹤支出， Google Cloud 提供完善的帳單和費用管理工具，例如：

Cloud Billing 報表和表格
Looker Studio 資訊主頁、預算和快訊
Cloud Monitoring
Cloud Logging

如要根據充分資訊做出資源分配和最佳化決策，請參考下列建議。

設定業務目標和 KPI

確保 AI 和機器學習專案的技術選擇符合業務目標和主要成效指標 (KPI)。

定義策略目標和以投資報酬率為重點的 KPI

確保 AI 和機器學習專案符合收益成長、降低成本、顧客滿意度和效率等策略目標。與利害關係人互動，瞭解業務優先事項。定義具體、可衡量、可達成、相關且有時限 (SMART) 的 AI 和 ML 目標。舉例來說，SMART 目標可以是：「在 6 個月內使用 AI 聊天機器人，將客戶服務的即時通訊處理時間縮短 15%」。

如要達成業務目標並評估投資報酬率 (ROI)，請為下列指標類別定義 KPI：

訓練、推論、儲存空間和網路資源的費用，包括特定單位成本 (例如每次推論、資料點或工作的費用)。這些指標可協助您深入瞭解效率和成本最佳化商機。您可以使用 Cloud Billing 報表和 Cloud Monitoring 資訊主頁追蹤這些費用。
業務價值指標，例如收益成長、節省成本、顧客滿意度、效率、準確度和採用率。您可以使用 BigQuery Analytics 和 Looker 資訊主頁追蹤這些指標。
特定產業的指標，例如：
- 零售業：評估收益升幅和流失率
- 醫療保健業：評估病患時間和病患結果
- 金融業：評估詐欺減少情形
專案專屬指標。您可以使用 Vertex AI Experiments 和評估功能追蹤這些指標。
- 預測型 AI：評估準確度和精確度
- 生成式 AI：評估採用率、滿意度和內容品質
- 電腦視覺 AI：評估準確度

培養注重成本的文化，並持續進行最佳化

採用 FinOps 原則，確保每個 AI 和機器學習專案都有預估成本，並在整個生命週期中，有方法可衡量及追蹤實際成本。確保專案的成本和業務效益已指派擁有者，並明確劃分責任歸屬。

詳情請參閱 Google Cloud 架構完善架構的「成本最佳化」支柱，瞭解如何培養成本意識文化。

透過疊代和意見回饋提升價值並持續最佳化

直接將 AI 和機器學習應用程式對應至業務目標，並評估投資報酬率。

如要驗證投資報酬率假設，請先進行先導專案，並使用下列疊代最佳化週期：

持續監控及分析資料：監控 KPI 和費用，找出偏差值和最佳化機會。
根據資料洞察結果進行調整：根據資料洞察結果，最佳化策略、模型、基礎架構和資源分配。
反覆調整：根據所學內容和不斷變化的業務需求，調整業務目標和 KPI。這個疊代程序有助於維持關聯性及策略一致性。
建立意見回饋迴路：與利害關係人一同檢視成效、費用和價值，做為持續最佳化和未來專案規劃的依據。

使用 Cloud Billing 和標籤管理帳單資料

如要有效節省成本，您必須瞭解各項成本元素的來源。本節的建議可協助您使用 Google Cloud工具，深入瞭解 AI 和機器學習費用。您也可以將費用歸因於特定 AI 和機器學習專案、團隊和活動。這些深入分析結果是成本最佳化的基礎。

整理及標記 Google Cloud 資源

以階層結構組織專案和資源，反映您的機構結構和 AI/ML 工作流程。如要追蹤及分析不同層級的費用，請使用機構、資料夾和專案來整理 Google Cloud 資源。詳情請參閱「為登陸區決定資源階層 Google Cloud 」。
為資源套用有意義的標籤。您可以使用的標籤包括專案、團隊、環境、模型名稱、資料集、用途和效能需求。標籤可為帳單資料提供重要背景資訊，並進行精細的費用分析。
在所有 AI 和機器學習專案中，標籤慣例應保持一致。一致的標籤慣例可確保帳單資料井然有序，方便分析。

使用帳單相關工具

如要進行詳細分析和產生報表，請將帳單資料匯出至 BigQuery。 BigQuery 具備強大的查詢功能，可讓您分析帳單資料，進一步瞭解費用。
如要依標籤、專案或特定時間範圍匯總費用，您可以在 BigQuery 中編寫自訂 SQL 查詢。這類查詢可讓您將費用歸因於特定 AI 和機器學習活動，例如模型訓練、超參數調整或推論。
如要找出費用異常或支出意外暴增的情況，請使用 BigQuery 的分析功能。這種做法有助於偵測 AI 和 ML 工作負載的潛在問題或效率低落情形。
如要找出及管理意外費用，請使用 Cloud Billing 中的異常偵測資訊主頁。
如要根據資源用量在不同團隊或部門之間分配費用，請使用 Google Cloud的費用分配功能。成本分配有助於落實問責制和資訊公開。
如要深入瞭解支出模式，請查看預先建構的 Cloud Billing 報表。您可以篩選及自訂這些報表，專注於特定 AI 和 ML 專案或服務。

使用資訊主頁、快訊和報表持續監控資源

如要建立可擴充且彈性的費用追蹤方式，您需要持續監控及產生報表。資訊主頁、快訊和報表是有效追蹤費用的基礎。有了這項基礎，您就能持續存取費用資訊、找出可最佳化的領域，並確保業務目標與費用一致。

建立回報系統

建立定期報表，並與適當的利害關係人分享。

使用 Cloud Monitoring 從各種來源收集指標，包括應用程式、基礎架構和服務，例如 Compute Engine、Google Kubernetes Engine (GKE) 和 Cloud Run 函式。 Google Cloud 如要即時查看指標和記錄，可以使用預先建構的 Cloud Monitoring 資訊主頁，或建立自訂資訊主頁。自訂資訊主頁可讓您定義及新增指標，追蹤系統的特定層面，例如模型效能、API 呼叫或業務層級 KPI。

使用 Cloud Logging 集中收集及儲存應用程式、系統和服務的記錄。 Google Cloud 記錄的用途如下：

追蹤 CPU、記憶體、儲存空間和網路等資源的費用和使用情形。
找出資源過度佈建 (資源未充分運用) 和佈建不足 (資源不足) 的情況。過度佈建會導致不必要的費用。如果資源不足，訓練時間就會變慢，並可能導致效能問題。
找出閒置或使用率偏低的資源 (例如 VM 和 GPU)，然後採取行動關閉或調整這些資源的大小，以節省費用。
找出費用暴增的情況，偵測資源用量或費用是否突然意外增加。

使用 Looker 或 Looker Studio 建立互動式資訊主頁和報表。將資訊主頁和報表連結至各種資料來源，包括 BigQuery 和 Cloud Monitoring。

根據重要 KPI 設定快訊門檻

針對 KPI，判斷應觸發快訊的門檻。有意義的警示門檻可協助您避免警示疲乏。在 Cloud Monitoring 中建立快訊政策，以便接收與 KPI 相關的通知。舉例來說，當準確度低於特定門檻或延遲時間超過定義的限制時，您會收到通知。以記錄資料為基礎的快訊可即時通知您潛在的費用問題。這類快訊可協助您立即採取修正措施，避免進一步的財務損失。

提高資源分配效益

如要在 Google Cloud中提高 AI 和機器學習工作負載的成本效益，請務必最佳化資源分配。為避免不必要的支出，並確保工作負載擁有執行最佳效能所需的資源，請根據工作負載需求分配資源。

如要最佳化雲端資源的分配，以供 AI 和機器學習工作負載使用，請參考下列建議。

運用自動調度資源功能動態調整資源

使用支援自動調度資源的服務，系統會根據目前需求自動調整資源分配。 Google Cloud 自動調度資源有以下優點：

成本和效能最佳化：避免為閒置資源付費。同時，自動調度資源功能可確保系統擁有必要的資源，即使在負載高峰期也能發揮最佳效能。
提升效率：讓團隊專注於其他工作。
提高敏捷度：您可以快速因應不斷變化的需求，並維持應用程式的高可用性。

下表摘要說明可用於實作自動調整資源配置的技術，適用於 AI 專案的不同階段。

階段	自動調度資源技術
訓練	使用 Vertex AI 或 GKE 等代管服務，這些服務提供訓練作業的內建自動調度資源功能。設定自動調度資源政策，根據 CPU 使用率、記憶體用量和工作佇列長度等指標，調度訓練例項數量。使用自訂調度指標，針對特定工作負載微調自動調度行為。
推論	在可擴充的平台 (例如 Vertex AI Inference、GKE 上的 GPU 或 GKE 上的 TPU) 部署模型。使用自動調度資源功能，根據要求比率、延遲時間和資源用量等指標調整副本數量。實作負載平衡，在副本之間平均分配流量，確保高可用性。

從小型模型和資料集著手

為降低成本，請盡可能以小規模測試機器學習假設，並採用疊代式方法。這種方法使用較小的模型和資料集，可帶來下列優點：

從一開始就降低成本：減少運算能力、儲存空間和處理時間，有助於在初步實驗和開發階段降低成本。
加快疊代速度：訓練時間較短，因此您可以加快疊代速度、探索替代方法，並更有效率地找出有希望的方向。
降低複雜度：簡化偵錯、分析和解讀結果的程序，加快開發週期。
有效運用資源：降低資源過度佈建的機率。您只需佈建目前工作負載所需的資源。

請參考下列建議：

先使用樣本資料：使用資料的代表性子集訓練模型。這種做法可讓您評估模型成效，並找出潛在問題，不必處理整個資料集。
使用筆記本進行實驗：先從較小的執行個體著手，再視需要調整規模。您可以使用 Vertex AI Workbench，這是代管型 Jupyter 筆記本環境，非常適合用來實驗不同的模型架構和資料集。
從較簡單或預先訓練的模型開始：使用 Vertex AI Model Garden 探索預先訓練的模型。這類模型所需的運算資源較少。視效能需求，逐步提高複雜度。
- 使用預先訓練模型執行圖片分類和自然語言處理等工作。如要節省訓練費用，一開始可以先使用較小的資料集微調模型。
- 使用BigQuery ML 處理結構化資料。BigQuery ML 可讓您直接在 BigQuery 中建立及部署模型。這種做法可充分利用 BigQuery 的查詢計價模式，因此非常適合初步實驗，經濟實惠。
資源調度，充分運用資源：使用 Google Cloud的彈性基礎架構，視需要調度資源。先從較小的執行個體開始，並視需要調整大小或數量。

透過實驗瞭解資源需求

AI 和 ML 工作負載的資源需求可能差異很大。如要盡量減少資源分配和成本，您必須透過系統化實驗瞭解工作負載的具體需求。如要找出最有效率的模型設定，請測試不同設定並分析其成效。然後根據需求，將用於訓練和服務的資源調整至最適規模。

我們建議採用下列實驗方法：

從基準開始：根據您對工作負載需求的初步估算，從基準設定開始。如要建立基準，您可以使用新工作負載的費用估算工具，或使用現有的帳單報表。詳情請參閱「Unlock the true cost of enterprise AI on Google Cloud」。
瞭解配額：開始大規模實驗前，請先熟悉您計畫使用的資源和 API 的 Google Cloud 專案配額。配額會決定您實際可測試的設定範圍。熟悉配額後，您就能在實驗階段使用可用的資源限制。
有系統地進行實驗：調整 CPU 數量、記憶體量、GPU 和 TPU 數量與類型，以及儲存空間容量等參數。Vertex AI 訓練和 Vertex AI 預測可讓您試用不同的機器類型和設定。
監控使用率、費用和效能：追蹤資源使用率、費用和重要效能指標，例如訓練時間、推論延遲時間和模型準確度，適用於您實驗的每項設定。
- 如要追蹤資源使用率和效能指標，請使用 Vertex AI 控制台。
- 如要收集及分析詳細的效能指標，請使用 Cloud Monitoring。
- 如要查看費用，請使用 Cloud Billing 報表和 Cloud Monitoring 資訊主頁。
- 如要找出模型中的效能瓶頸並盡量提高資源使用率，請使用 Vertex AI TensorBoard 等剖析工具。
分析費用：比較各項設定的費用和成效，找出最具成本效益的選項。
根據配額設定資源門檻和改善目標：定義門檻，當資源調度開始產生邊際效益遞減的成效時 (例如訓練時間或延遲時間大幅增加，但成本只略微增加)，設定這些門檻時，請考量專案配額。判斷成本和進一步擴充的潛在配額影響，是否不再能以效能提升來證明合理性。
反覆調整：根據測試結果，以調整後的設定重複進行實驗。請務必確保資源用量維持在配額範圍內，並符合既定的成本效益門檻。

運用 MLOps 減少效率低落的情況

隨著機構越來越常使用機器學習技術推動創新和提升效率，有效管理機器學習生命週期就變得至關重要。機器學習運作 (MLOps) 是一組做法，可自動化及簡化機器學習生命週期，從模型開發到部署和監控。

根據成本驅動因素調整機器學習運作

如要運用 MLOps 提升成本效益，請找出機器學習生命週期中的主要成本驅動因素。接著，您就能採用並導入與成本驅動因素一致的機器學習運作做法。優先採用 MLOps 功能，解決影響最大的成本因素。這種做法可確保您能順利達成目標，大幅節省成本。

導入機器學習運作，實現成本最佳化

以下是常見的 MLOps 做法，有助於降低成本：

版本管控：Git 等工具可協助您追蹤程式碼、資料和模型的版本。版本控管可確保結果可重現、促進協作，並避免因版本問題造成成本高昂的重工。
持續整合與持續推送軟體更新 (CI/CD)： Cloud Build 和 Artifact Registry 可讓您實作 CI/CD 管道，自動建構、測試及部署 ML 模型。CI/CD 管道可確保資源得到有效利用，並盡量減少手動介入所產生的相關費用。
可觀測性： Cloud Monitoring 和 Cloud Logging 可讓您追蹤正式環境中的模型效能、找出問題，並觸發警報以主動介入。可觀測性可協助您維持模型準確度、調整資源分配，並避免代價高昂的停機或效能下降問題。
模型重新訓練： Vertex AI Pipelines 可簡化定期重新訓練模型或模型效能下降時的程序。使用 Vertex AI Pipelines 重新訓練模型時，可確保模型維持準確度和效率，避免不必要的資源耗用，並維持最佳效能。
自動測試和評估： Vertex AI 可協助您加快模型評估速度並標準化。在整個機器學習生命週期中實作自動化測試，確保模型品質和可靠性。這類測試有助於及早發現錯誤、避免實際運作時發生代價高昂的問題，並減少大量手動測試的需求。

詳情請參閱「機器學習運作：機器學習的持續推送軟體更新與自動化管線」。

落實資料管理和治理做法

有效的資料管理和控管做法對於成本最佳化至關重要。妥善整理資料可鼓勵團隊重複使用資料集、避免不必要的重複作業，並減少取得高品質資料所需的工作量。主動管理資料可降低儲存空間成本、提升資料品質，並確保機器學習模型以最相關且有價值的資料進行訓練。

如要實作資料管理和治理做法，請考慮採用下列建議。

建立及採用資料管理架構

隨著 AI 和 ML 日益重要，資料已成為數位轉型機構最有價值的資產。健全的資料治理架構是有效管理 AI 和機器學習工作負載的必要條件，可大規模節省成本。明確定義政策、程序和角色的資料管理架構，可提供結構化方法，在資料的整個生命週期中進行管理。這類架構有助於提升資料品質、強化安全性、提高使用率及減少冗餘。

建立資料管理架構

資料控管有許多現成架構，例如 EDM Council 發布的架構，適用於不同產業和機構規模。選擇並調整符合您特定需求和優先事項的架構。

實作資料治理架構

Google Cloud 提供下列服務和工具，協助您導入完善的資料治理架構：

Dataplex Universal Catalog 是智慧型資料架構，可協助您整合分散式資料，並自動執行資料治理，不必將資料集集中在一個位置。這有助於降低資料發布和維護成本、促進資料探索，以及推動重複使用。
- 如要整理資料，請使用 Dataplex Universal Catalog 抽象化功能，並設定邏輯資料湖泊和區域。
- 如要管理資料湖和儲存區的存取權，請使用 Google 群組和 Dataplex Universal Catalog 角色。
- 如要簡化資料品質程序，請啟用自動分析資料品質。
Dataplex Universal Catalog 也是全代管的可擴充中繼資料管理服務。目錄可確保資料資產可供存取及重複使用，奠定資料管理基礎。
- 系統會自動將支援的來源 Google Cloud 中繼資料擷取至通用目錄。如要使用 Google Cloud以外的資料來源，請建立自訂項目。
- 如要提升資料資產的探索和管理能力，請使用層面，透過業務中繼資料充實技術中繼資料。
- 確認資料科學家和機器學習從業人員有足夠的權限，可存取 Dataplex Universal Catalog 並使用搜尋功能。
BigQuery 共用功能可讓您安全又有效率地跨機構交換資料資產，解決資料可靠性和成本方面的難題。
- 設定資料交換，並確保精選資料資產可做為商家資訊查看。
- 使用資料無塵室安全地管理機密資料的存取權，並與外部團隊和機構有效合作，共同進行 AI 和 ML 專案。
- 請確保資料科學家和機器學習從業人員具備足夠的權限，可查看資料集並發布至 BigQuery 共用。

在整個機器學習生命週期中重複使用資料集和特徵

如要大幅提升效率和節省成本，請在多個機器學習專案中重複使用資料集和特徵。避免重複的資料工程和特徵開發工作，有助於貴機構加速模型開發、降低基礎架構成本，並將寶貴的資源用於其他重要工作。

Google Cloud 提供下列服務和工具，協助您重複使用資料集和特徵：

資料和機器學習從業人員可以發布資料產品，盡量讓各團隊重複使用。接著，即可透過 Dataplex Universal Catalog 和 BigQuery 共用功能，探索及使用資料產品。
對於表格和結構化資料集，您可以使用 Vertex AI 特徵儲存庫，透過 BigQuery 提高重複使用率並簡化特徵管理。
您可以在 Cloud Storage 中儲存非結構化資料，並使用 BigQuery 物件資料表和簽章網址管理資料。
您可以在向量搜尋索引中加入中繼資料，藉此管理向量嵌入。

透過機器學習運作機制自動化及簡化作業

採用機器學習運作做法的主要好處是降低技術和人員成本。自動化可協助您避免重複執行機器學習活動，並減少數據資料學家和機器學習工程師的工作量。

如要透過機器學習運作自動化及簡化機器學習開發作業，請考慮下列建議。

自動收集及處理資料，並將程序標準化

為減少機器學習開發工作和時間，請自動化及標準化資料收集和處理技術。

自動收集及處理資料

本節將摘要說明可用於自動收集及處理資料的產品、工具和技術。

找出並選擇適合 AI 和 ML 工作的資料來源：

資料庫選項包括： Cloud SQL、 Spanner、 PostgreSQL 適用的 AlloyDB、 Firestore 和 BigQuery。選擇取決於您的需求，例如寫入存取權的延遲時間 (靜態或動態)、資料量 (高或低)，以及資料格式 (結構化、非結構化或半結構化)。詳情請參閱Google Cloud 資料庫。
資料湖泊，例如使用 BigLake 的 Cloud Storage。
Dataplex Universal Catalog，可管理各來源的資料。
串流事件平台，例如 Pub/Sub、Dataflow 或 Apache Kafka。
外部 API。

為每個資料來源選擇擷取工具：

Dataflow：用於批次和串流處理來自各種來源的資料，並整合 ML 元件。對於事件驅動架構，您可以將 Dataflow 與 Eventarc 結合，有效處理機器學習資料。如要提升 MLOps 和機器學習工作效率，請使用 GPU 和最適資源配置功能。
Cloud Run 函式：適用於事件驅動型資料擷取，由資料來源的變更觸發，適用於即時應用程式。
BigQuery：用於擷取傳統表格資料，並經常存取。

選擇資料轉換和載入工具：

使用 Dataflow 或 Dataform 等工具，自動執行資料轉換作業，例如特徵縮放、編碼類別變數，以及批次、串流或即時建立新特徵。選取的工具取決於您的需求和所選服務。
使用 Vertex AI 特徵儲存庫自動建立及管理特徵。您可以集中管理特徵，以便在不同模型和專案中重複使用。

標準化資料收集和處理程序

如要探索、瞭解及管理資料資產，請使用中繼資料管理服務，例如 Dataplex Universal Catalog。這項功能可協助您統一資料定義，確保整個機構的資料一致性。

如要強制執行標準化，並避免維護多個自訂實作項目所產生的費用，請使用自動化訓練管道和調度管理。詳情請參閱下一節。

自動化訓練管道並重複使用現有資產

如要提升機器學習運作的效率和生產力，自動化訓練管道至關重要。 Google Cloud 提供一系列強大的工具和服務，可建構及部署訓練管道，並著重於重複使用現有資產。自動化訓練管道有助於加快模型開發速度、確保一致性，並減少重複作業。

自動化訓練管線

下表說明可用於自動執行訓練管道不同功能的 Google Cloud 服務和功能。

函式	Google Cloud 服務和功能
自動化調度管理：定義由多個步驟和依附元件組成的複雜機器學習工作流程。您可以將每個步驟定義為個別的容器化工作，輕鬆管理及擴展個別工作。	如要建立及自動調度管理管道，請使用 Vertex AI Pipelines 或 Kubeflow Pipelines。這些工具支援簡單的資料轉換、模型訓練、模型部署和管道版本管理。您可以藉此定義步驟之間的依附元件、管理資料流程，以及自動執行整個工作流程。如要執行複雜的作業工作，且有大量的 CI/CD 和擷取、轉換及載入 (ETL) 需求，請使用 Cloud Composer。如果您偏好使用 Airflow 進行資料自動調度管理，Cloud Composer 是以 Airflow 為基礎的相容代管服務。如要管理 Vertex AI Pipelines 以外的管道，請使用 Workflows 執行基礎架構相關工作，例如啟動及停止 VM，或與外部系統整合。如要自動執行 CI/CD 程序，請搭配使用 Cloud Build 和 Pub/Sub。您可以設定通知和自動觸發條件，在推送新程式碼或需要訓練新模型時觸發。如要使用全代管的可擴充管道管理解決方案，請使用 Cloud Data Fusion。
版本管理：追蹤及控管管道和元件的不同版本，確保可重現性和可稽核性。	在 Artifact Registry 的 Kubeflow Pipelines 存放區中，儲存 Kubeflow pipeline 範本。
可重複使用：重複使用現有的管道元件和構件，例如準備好的資料集和訓練好的模型，加快開發速度。	將管道範本儲存在 Cloud Storage 中，並在整個機構中分享。
監控：監控管道執行作業，找出並解決任何問題。	使用 Cloud Logging 和 Cloud Monitoring。詳情請參閱「使用資訊主頁、快訊和報表持續監控資源」。

擴大管道以外的重複使用範圍

尋找機會，將可重複使用的項目擴展到訓練管道以外。以下是 Google Cloud 功能的範例，可讓您重複使用機器學習功能、資料集、模型和程式碼。

Vertex AI 特徵儲存庫是可供整理、儲存和提供機器學習特徵的集中存放區。您可以在不同專案和模型中重複使用特徵，提升一致性並減少特徵工程工作。您可以儲存、分享及存取線上和離線用途的功能。
Vertex AI 資料集可讓團隊集中建立及管理資料集，因此貴機構可以盡量重複使用資料，並減少資料重複。團隊可以使用 Dataplex Universal Catalog 搜尋及探索資料集。
Vertex AI Model Registry 可讓您儲存、管理及部署訓練好的模型。模型登錄可讓您在後續管道或線上預測中重複使用模型，充分利用先前的訓練成果。
自訂容器可讓您將訓練程式碼和依附元件封裝至容器，並將容器儲存在 Artifact Registry。自訂容器可讓您在不同管道和專案中，提供一致且可重現的訓練環境。

使用 Google Cloud 服務評估及調整模型

Google Cloud 提供強大的工具和服務套件，可簡化及自動化模型評估和調整作業。這些工具和服務可協助您縮短投入生產的時間，並減少持續訓練和監控所需的資源。使用這些服務，AI 和機器學習團隊就能以較少的昂貴疊代次數提升模型效能、更快獲得結果，並盡量減少運算資源浪費。

使用資源效率高的模型評估和實驗

在擴大解決方案規模前，請先透過實驗展開 AI 專案。在實驗中，追蹤各種中繼資料，例如資料集版本、模型參數和模型類型。如要進一步重現及比較結果，請使用中繼資料追蹤功能和程式碼版本控管功能，類似於 Git 的功能。為避免遺漏資訊或在正式環境中部署錯誤版本，請先使用 Vertex AI Experiments，再實作大規模部署或訓練工作。

Vertex AI Experiments 可讓您執行下列操作：

透過容易使用的 UI 和 API，簡化並自動化中繼資料追蹤和探索作業，以利處理正式版工作負載。
分析模型的成效指標，並比較多個模型的指標。

模型訓練完成後，請持續監控一段時間，瞭解模型對傳入資料的成效和資料偏移情形。如要簡化這個程序，請使用 Vertex AI Model Monitoring，直接存取 Model Registry 中建立的模型。此外，模型監控功能也會透過線上和批次預測，自動監控資料和結果。您可以將結果匯出至 BigQuery，進行進一步分析和追蹤。

選擇最佳策略，自動執行訓練

如要調整超參數，建議採取下列做法：

如要自動找出模型的最佳超參數，請使用 Vertex AI 超參數調整。Vertex AI 會使用進階演算法探索超參數空間，並找出最佳設定。
如要有效率地調整超參數，請考慮使用貝氏最佳化技術，特別是在處理複雜模型和大型資料集時。

如要進行分散式訓練，建議採取下列方法：

如果是大型資料集和複雜模型，請使用 Vertex AI 的分散式訓練基礎架構。這種做法可讓您在多部機器上訓練模型，大幅縮短訓練時間並降低相關成本。使用下列工具：
- Vertex AI 調整：對 Gemini、Imagen 和其他模型執行監督式微調。
- Vertex AI 訓練或 Vertex AI 上的 Ray，進行自訂分散式訓練。
選擇經過最佳化的機器學習架構，例如 Keras 和 PyTorch，支援分散式訓練並有效運用資源。

使用 Explainable AI

瞭解模型做出特定決策的原因，並找出潛在偏誤或待改善之處，是至關重要的步驟。使用 Vertex Explainable AI 深入瞭解模型的預測結果。Vertex Explainable AI 可自動產生與 Vertex AI 實驗相關的特徵和範例說明。

以特徵為準：如要瞭解哪些特徵對模型預測結果的影響最大，請分析特徵歸因。這項瞭解有助於引導特徵工程工作，並提升模型可解讀性。
以範例為準： Vertex AI 會使用最鄰近搜尋，傳回與輸入內容最相似的範例清單 (通常來自訓練集)。由於類似的輸入內容通常會產生類似的預測結果，因此您可以運用這些說明來探索及解釋模型的行為。

使用代管服務和預先訓練模型

採用漸進式方法選取及開發模型。這種做法可協助您避免每次都從頭開始而產生過多費用。如要控管成本，請使用機器學習架構、代管服務和預先訓練的模型。

如要充分發揮代管服務和預先訓練模型的價值，請參考下列建議。

使用筆記本探索及實驗

筆記本環境對於經濟實惠的 ML 實驗至關重要。筆記本提供互動式協作空間，方便資料科學家和工程師探索資料、開發模型、分享知識，以及有效率地疊代。透過筆記本協作及分享知識，可大幅加快開發、程式碼審查和知識轉移的速度。筆記本有助於簡化工作流程，減少重複作業。

您不必為開發環境採購及管理昂貴的硬體，而是可以運用 Vertex AI Workbench 和 Colab Enterprise 的可擴充隨選基礎架構。

Vertex AI Workbench 是 Jupyter 筆記本開發環境，適用於整個資料科學工作流程。您可以透過執行個體的 Jupyter 筆記本，與 Vertex AI 和其他 Google Cloud服務互動。Vertex AI Workbench 整合功能和特徵可協助您執行下列操作：
- 使用 BigQuery 和 Cloud Storage 整合功能，從 Jupyter 筆記本存取及探索資料。
- 使用在 Vertex AI 上執行的程式碼排程，自動更新模型。
- 在 Dataproc 叢集上執行筆記本，快速處理資料。
- 使用 Vertex AI Pipelines，將筆記本做為管道中的步驟執行。
Colab Enterprise 是協作式的代管筆記本環境，具備 Google Cloud的安全性和法規遵循功能。如果專案的優先事項包括協同開發，以及減少管理基礎架構所需的心力，Colab Enterprise 就是理想選擇。Colab Enterprise 整合了Google Cloud 服務和 AI 輔助功能，後者採用 Gemini 技術。Colab Enterprise 可讓您執行下列操作：
- 在筆記本中工作，不必管理基礎架構。
- 與單一使用者、Google 群組或 Google Workspace 網域共用筆記本，您可以透過 Identity and Access Management (IAM) 控管筆記本存取權。
- 與 Vertex AI 和 BigQuery 內建的功能互動。

如要追蹤變更並在必要時還原至先前的版本，您可以將筆記本與 Git 等版本管控工具整合。

從現有和預先訓練的模型著手

從頭開始訓練複雜模型 (尤其是深度學習模型) 需要大量運算資源和時間。如要加快模型選取和開發程序，請從現有和預先訓練的模型著手。這些模型是以大量資料集訓練而成，因此無須從頭訓練模型，可大幅降低成本並縮短開發時間。

降低訓練和開發成本

為每項機器學習工作選取合適的模型或 API，然後結合這些模型或 API，建立端對端機器學習開發程序。

Vertex AI Model Garden 提供大量預先訓練模型，可執行圖像分類、物件偵測和自然語言處理等工作。模型會分組為下列類別：

Google 模型，例如 Gemini 系列模型和 Imagen (用於生成圖片)。
開放原始碼模型，例如 Gemma 和 Llama。
第三方模型，例如 Anthropic 和 Mistral AI 的模型。

Google Cloud 提供 AI 和 ML API，讓開發人員將強大的 AI 功能整合至應用程式，不必從頭建構模型。

Cloud Vision API 可讓您從圖片取得深入分析。這項 API 可用於各種應用程式，包括圖片分析、內容審核和自動資料輸入。
Cloud Natural Language API 可分析文字，瞭解其結構和意義。這項 API 可用於分析顧客意見回饋、內容分類，以及瞭解社群媒體趨勢等工作。
Speech-to-Text API 可將音訊轉換為文字。這項 API 支援多種語言和方言。
Video Intelligence API 可分析影片內容，識別物件、場景和動作。這項 API 可用於影片內容分析、內容審核和影片搜尋。
Document AI API 可處理文件，從中擷取、分類及解讀資料。這項 API 可協助您自動執行文件處理工作流程。
Dialogflow API 可用於建立對話式介面，例如聊天機器人和語音助理。您可以使用這項 API 建立客戶服務機器人和虛擬助理。
Vertex AI 中的 Gemini API 提供 Google 最強大且用途廣泛的 AI 模型。

降低微調成本

如要減少對大量資料和運算時間的需求，請使用特定資料集微調預先訓練模型。建議採取下列做法：

遷移學習：運用預先訓練模型所學的知識來執行新工作，不必從頭開始。這種做法需要的資料和運算時間較少，有助於降低成本。
適應器調整 (高效參數調整)：讓模型適應新工作或領域，不必進行完整微調。這種方法需要的運算資源和資料集都大幅減少。
監督式微調：使用加上標籤的資料集調整模型行為。這種做法可簡化基礎架構管理，以及自訂訓練作業所需的開發工作。

使用 Vertex AI Studio 探索及實驗

Vertex AI Studio 可讓您快速測試、設計及部署生成式 AI 應用程式。

與 Model Garden 整合：可快速存取最新模型，並有效率地部署模型，節省時間和成本。
統一存取專用模型：集中管理各種預先訓練模型和 API 的存取權，包括用於對話、文字、媒體、翻譯和語音的模型和 API。這個統一存取方式可協助您減少搜尋及整合個別服務所花費的時間。

使用代管服務訓練或提供模型

代管服務可協助您降低模型訓練成本，並簡化基礎架構管理作業，讓您專注於模型開發和最佳化。這種做法可大幅節省成本，並提高效率。

減輕作業負擔

如要降低基礎架構管理的複雜度和成本，請使用下列代管服務：

Vertex AI 訓練提供全代管環境，可大規模訓練模型。您可以從各種預先建構的容器中選擇熱門的機器學習架構，也可以使用自己的自訂容器。 Google Cloud 會處理基礎架構佈建、擴充和維護作業，因此您產生的營運費用較低。
Vertex AI 預測可處理基礎架構擴充、負載平衡和要求轉送。您可享有高可用性和效能，不必手動介入。
Ray on Vertex AI 提供全代管的 Ray 叢集。您可以使用叢集執行複雜的自訂 AI 工作負載，進行大量運算 (超參數調整、模型微調、分散式模型訓練，以及根據人類回饋進行強化學習)，無須管理自己的基礎架構。

善用代管服務，充分運用資源

如要瞭解如何有效運用資源，請參閱「最佳化資源用量」。

貢獻者

作者：

羅以撒 | AI 業務開發經理
Anastasia Prokaeva | 生成式 AI 領域解決方案架構師
Amy Southwood | 技術解決方案顧問，資料分析與 AI

其他貢獻者：

Filipe Gracio 博士 | 客戶工程師、AI/機器學習專家
Kumar Dhanagopal | 跨產品解決方案開發人員
Marwan Al Shawi | 合作夥伴客戶工程師
Nicolas Pintaux | 客戶工程師、應用程式現代化專家

可靠性

效能最佳化