AI 和機器學習觀點:效能最佳化

Last reviewed 2024-10-11 UTC

這份文件位於架構完善架構:AI 和機器學習觀點,概述了相關原則和建議,可協助您在 Google Cloud上最佳化 AI 和機器學習工作負載的效能。本文中的建議符合 Google Cloud 架構完善架構的效能最佳化支柱

AI 和機器學習系統可為貴機構提供新的自動化和決策功能。這些系統的成效會直接影響收益、成本和顧客滿意度等業務驅動因素。如要充分發揮 AI 和機器學習系統的潛力,您需要根據業務目標和技術需求,盡可能提升系統效能。效能最佳化程序通常需要進行取捨。舉例來說,如果設計選擇可提供所需效能,但會導致成本增加,本文中的最佳化建議以成效為優先考量,而非費用等其他因素。

如要提升 AI 和 ML 效能,您需要針對模型架構、參數和訓練策略等因素做出決策。做出這些決策時,請考量 AI 和機器學習系統的整個生命週期及其部署環境。舉例來說,大型 LLM 在大規模訓練基礎架構中可能表現優異,但在行動裝置等容量受限的環境中,大型模型可能無法發揮良好效能。

將業務目標轉換為成效目標

如要做出可提升效能的架構決策,請先明確設定業務目標。設計 AI 和機器學習系統時,請確保技術效能符合業務目標和優先事項的需求。技術團隊必須瞭解成效目標與業務目標之間的對應關係。

請參考下列建議:

  • 將業務目標轉化為技術需求: 將 AI 和機器學習系統的業務目標轉化為具體的技術效能需求,並評估未達到這些需求所造成的影響。舉例來說,如果應用程式會預測客戶流失,機器學習模型應在準確率和喚回率等標準指標方面表現良好,應用程式應符合低延遲等運算需求。
  • 在模型生命週期的所有階段監控成效:在模型部署後的實驗和訓練期間,請監控主要成效指標 (KPI),並觀察是否與業務目標有任何偏差。
  • 自動評估,確保可重現且標準化:有了標準化且可比較的實驗評估平台和方法,工程師就能加快提升成效的速度。

執行並追蹤頻繁的實驗

如要將創新和創意轉化為成效提升,您需要支援實驗的文化和平台。AI 和機器學習技術持續快速發展,因此效能提升是持續進行的過程。如要維持快速的疊代程序,您需要將實驗空間與訓練和服務平台分開。標準化且健全的實驗程序非常重要。

請參考下列建議:

  • 建構實驗環境:如要提升效能,需要專用、功能強大且具互動性的環境,支援機器學習管道的實驗和協作開發。
  • 將實驗融入文化:在任何正式部署前執行實驗。反覆發布新版本,並持續收集效能資料。嘗試不同的資料類型、特徵轉換、演算法和超參數

建構及自動化訓練和服務服務

訓練及提供 AI 模型是 AI 服務的核心元件。您需要健全的平台和做法,才能快速可靠地建立、部署及提供 AI 模型。投入時間和精力,為核心 AI 訓練和服務工作建立基礎平台。這些基礎平台有助於減少團隊的時間和精力,並從中長期來看提升輸出內容的品質。

請參考下列建議:

  • 使用訓練服務的 AI 專用元件:這類元件包括高效能運算和 MLOps 元件,例如特徵商店、模型登錄、中繼資料商店和模型效能評估服務。
  • 使用預測服務的 AI 專用元件:這類元件提供高效能且可擴充的資源、支援特徵監控,並可監控模型效能。為防止及管理效能下降問題,請實作可靠的部署和回溯策略。

根據效能需求選擇設計

選擇改善效能的設計時,請仔細評估這些選擇是否符合業務需求,或是否會造成浪費和反效果。如要選擇合適的基礎架構、模型或設定,請找出效能瓶頸,並評估這些瓶頸與效能指標的關聯。舉例來說,即使使用效能強大的 GPU 加速器,訓練工作仍可能因儲存層的資料 I/O 問題,或模型本身的效能限制而出現瓶頸。

請參考下列建議:

  • 根據效能目標調整硬體用量:如要訓練及放送符合效能需求的機器學習模型,您必須在運算、儲存空間和網路層級最佳化基礎架構。您必須評估並瞭解影響成效目標的變數。訓練和推論的變數不同。
  • 著重於工作負載的特定需求:將效能最佳化工作重點放在 AI 和機器學習工作負載的獨特需求。仰賴代管服務的底層基礎架構效能。
  • 選擇合適的訓練策略:我們提供多種預先訓練和基礎模型,且經常發布更多這類模型。選擇可為工作提供最佳成效的訓練策略。決定是否要建構自己的模型、根據資料調整預先訓練的模型,或是使用預先訓練的模型 API。
  • 瞭解成效最佳化策略可能會出現邊際效益遞減的情況:如果特定成效最佳化策略無法提供可評估的業務價值增幅,請停止採用該策略。

如要創新、排解問題及調查效能問題,請建立設計選擇與效能結果之間的明確連結。除了實驗之外,您還必須可靠地記錄資產、部署作業、模型輸出內容,以及產生輸出內容的設定和輸入內容的沿革。

請參考下列建議:

  • 建立資料和模型沿襲系統:所有已部署的資產及其成效指標,都必須連結回資料、設定、程式碼,以及導致部署系統的選擇。此外,模型輸出內容必須連結至特定模型版本,以及輸出內容的產生方式。
  • 使用可解釋性工具提升模型成效:採用並標準化模型探索和可解釋性工具與基準。這些工具可協助機器學習工程師瞭解模型行為、提升效能或移除偏誤。

貢獻者

作者:

其他貢獻者: