Google Cloud 架構完善架構的成本最佳化支柱,說明如何運用原則和建議,盡可能提高 Google Cloud工作負載的成本效益。
目標對象包括:
- 負責策略性成本管理的技術長、資訊長、財務長和其他主管。
- 架構師、開發人員、管理員和營運人員,他們在機構雲端歷程的各個階段,都會做出影響費用的決策。
內部部署和雲端工作負載的成本模式差異很大。 本地 IT 成本包括資本支出 (CapEx) 和營運支出 (OpEx)。地端硬體和軟體資產的取得成本會折舊,在雲端中,大多數雲端資源的費用都視為營運支出,也就是在消耗雲端資源時產生的費用。這項基本差異凸顯了下列成本最佳化核心原則的重要性。
如要瞭解 AI 和機器學習工作負載專用的成本最佳化原則和建議,請參閱 Well-Architected Framework 中的「AI 和機器學習觀點:成本最佳化」。
核心原則
架構完善架構的成本最佳化支柱建議,對應至下列核心原則:
- 根據業務價值調整雲端支出: 根據業務目標調整 IT 支出,確保雲端資源能帶來可衡量的業務價值。
- 培養成本意識文化: 確保貴機構中的使用者在做出決策和執行活動時,都會考量成本影響,並確保他們有權存取做出明智決策所需的成本資訊。
- 最佳化資源用量: 只佈建您需要的資源,並只為耗用的資源付費。
- 持續最佳化: 持續監控雲端資源用量和成本,並視需要主動進行調整,盡可能提高成本效益。這種做法包括找出並解決潛在的成本效益不彰問題,避免問題惡化。
這些原則與雲端 FinOps 的核心宗旨密切相關。無論規模大小或雲端成熟度如何,任何機構都適用 FinOps。採用這些原則並遵循相關建議,您就能在雲端之旅中控管及最佳化成本。
貢獻者
作者:Nicolas Pintaux | 客戶工程師、應用程式現代化專家
其他貢獻者:
- Anuradha Bajpai | 解決方案架構師
- Daniel Lees | 雲端安全架構師
- Eric Lam | Google Cloud FinOps 負責人
- Fernando Rubbo | 雲端解決方案架構師
- Filipe Gracio 博士 | 客戶工程師
- Gary Harmson | 首席架構師
- Jose Andrade | 企業基礎架構客戶工程師
- Kent Hua | 解決方案經理
- Kumar Dhanagopal | 跨產品解決方案開發人員
- Marwan Al Shawi | 合作夥伴客戶工程師
- Radhika Kanakam | Cloud GTM 資深專案經理
- Samantha He | 技術文件撰稿者
- Steve McGhee | 可靠性做法倡議者
- Sergei Lilichenko | 解決方案架構師
- Wade Holmes | 全球解決方案總監
- Zach Seils | 網路專員
根據業務價值調整雲端支出
Google Cloud Well-Architected Framework 的成本最佳化支柱提供相關建議,協助您根據機構的業務目標,調整資源使用方式。 Google Cloud
原則總覽
如要有效管理雲端費用,您必須盡可能提高雲端資源帶來的業務價值,並盡量降低總持有成本 (TCO)。評估雲端工作負載的資源選項時,不僅要考慮佈建和使用資源的成本,也要考慮管理資源的成本。舉例來說,Compute Engine 上的虛擬機器 (VM) 可能是託管應用程式的經濟實惠選項。不過,如果考量到維護、修補及擴充 VM 的額外負擔,總擁有成本可能會增加。另一方面,Cloud Run 等無伺服器服務可提供更高的商務價值。作業負擔減少後,團隊就能專注於核心活動,並提高敏捷度。
為確保雲端資源發揮最大價值,請評估下列因素:
- 佈建和使用費用:購買、佈建或使用資源時產生的費用。
- 管理費用:營運和維護資源的經常性支出,包括修補、監控和擴充等工作。
- 間接成本:您可能需要支付的成本,用於管理停機、資料遺失或安全漏洞等問題。
- 業務影響:資源的潛在效益,例如提高收益、提升顧客滿意度,以及加快上市時間。
將雲端支出與業務價值保持一致,可享有下列好處:
- 以價值為導向的決策:鼓勵團隊優先採用能帶來最大業務價值的解決方案,並考量短期和長期成本影響。
- 明智的資源選擇:團隊擁有評估各種部署選項的業務價值和總擁有成本所需的資訊和知識,因此能選擇經濟實惠的資源。
- 跨團隊目標一致:業務、財務和技術團隊跨職能合作,確保雲端決策符合機構的整體目標。
建議
如要讓雲端支出符合業務目標,請參考下列建議。
優先使用代管服務和無伺服器產品
盡可能選擇代管服務和無伺服器產品,以減少營運負擔和維護成本。這樣一來,團隊就能專注於核心業務活動。有助於加速提供新功能,並推動創新和價值。
以下是實作這項建議的範例:
- 如要執行 PostgreSQL、MySQL 或 Microsoft SQL Server 伺服器資料庫,請使用 Cloud SQL, 而非在 VM 上部署這些資料庫。
- 如要執行及管理 Kubernetes 叢集,請使用 Google Kubernetes Engine (GKE) Autopilot, 而非在 VM 上部署容器。
- 如需 Apache Hadoop 或 Apache Spark 處理作業,請使用 Dataproc 和 Dataproc Serverless。相較於地端部署資料湖泊,以秒計費可大幅降低總持有成本。
在成本效益與業務靈活度之間取得平衡
控管成本和盡量運用資源是重要的目標。 不過,您必須兼顧這些目標,同時滿足彈性基礎架構的需求, 才能快速創新、迅速應變,並加快提供價值。以下是幾個取得平衡的例子:
- 採用 DORA 指標來評估軟體推送成效。變更失敗率 (CFR)、偵測時間 (TTD) 和復原時間 (TTR) 等指標,有助於找出並修正開發和部署程序中的瓶頸。減少停機時間並加快交付速度,即可同時提升作業效率和業務靈活度。
- 遵循網站穩定性工程 (SRE) 做法,提升運作可靠性。SRE 專注於自動化、可觀測性和事件應變,可減少停機時間、縮短復原時間,並提高顧客滿意度。盡量縮短停機時間並提升作業可靠性,有助於避免收益損失,也不必為了處理中斷問題而過度佈建資源,做為安全網。
啟用自助最佳化功能
為團隊提供自助式成本最佳化工具、可觀測性工具和資源管理平台,鼓勵實驗和探索。讓他們自主佈建、管理及最佳化雲端資源。這種做法有助於培養責任感、加速創新,並確保團隊能迅速因應不斷變化的需求,同時兼顧成本效益。
採用並導入 FinOps
採用 FinOps 建立協作環境,讓每個人都能做出明智決策,兼顧成本與價值。FinOps 可培養財務責任感,並促進雲端成本效益最佳化。
宣導價值導向和總持有成本意識
鼓勵團隊成員從整體角度看待雲端支出,著重於總持有成本,而不僅是前期費用。使用價值流程圖等技巧,以視覺化方式呈現及分析軟體交付流程中的價值流,並找出可改善的領域。為應用程式和服務導入單位成本,深入瞭解費用提高的原因,並找出可進行最佳化處理的改進空間。詳情請參閱「透過雲端 FinOps 充分發揮商業價值」。
培養成本意識文化
Google Cloud Well-Architected Framework 的成本最佳化支柱中,這項原則提供相關建議,協助您在整個機構中宣導成本意識,並確保團隊成員擁有做出明智決策所需的成本資訊。
傳統上,成本管理責任可能集中在少數選定的利害關係人身上,主要著重於初始專案架構決策。不過,所有雲端使用者角色 (分析師、架構師、開發人員或管理員) 的團隊成員,都能協助減少Google Cloud中的資源成本。適當分享費用資料,有助於團隊成員在開發和部署程序中,做出符合成本效益的決策。
原則總覽
產品負責人、開發人員、部署工程師、管理員和財務分析師等各種角色,都需要瞭解相關費用資料及其與業務價值的關係。在佈建及管理雲端資源時,他們需要下列資料:
- 預估資源費用:設計和部署時的預估費用。
- 即時資源用量費用:最新的費用資料,可用於持續監控和驗證預算。
- 與業務指標對應的成本:深入瞭解雲端支出對主要成效指標 (KPI) 的影響,協助團隊找出符合成本效益的策略。
並非每個人都需要存取原始費用資料。不過,在所有角色中宣導成本意識至關重要,因為個人決策可能會影響成本。
透過提高成本透明度,並確保成本管理做法的責任歸屬明確,讓每個人都能瞭解自身選擇的財務影響,並積極為機構的成本最佳化目標做出貢獻。無論是透過集中式 FinOps 團隊或分散式模型,建立責任歸屬對於有效進行成本最佳化工作至關重要。
建議
為提高成本意識,並確保團隊成員擁有做出明智決策所需的成本資訊,建議採取下列做法。
提供全機構的費用資訊
如要掌握整個機構的費用,負責費用管理的團隊可以採取下列動作:
- 標準化成本計算和預算:採用一致的方法,在計入折扣和共用成本後,判斷雲端資源的總成本。建立明確且標準化的預算程序,與貴機構的目標保持一致,並主動管理成本。
- 使用標準化成本管理和可視性工具:使用適當的工具,即時掌握雲端支出,並定期 (例如每週) 產生費用進展快照。這些工具可協助您主動規劃預算、預測成效,並找出最佳化機會。這些工具可以是雲端供應商工具 (例如 Google Cloud 帳單資訊主頁)、第三方解決方案,或是開放原始碼解決方案 (例如成本歸因解決方案)。
- 導入費用分配系統:將整體雲端預算的一部分分配給各個團隊或專案。這種分配方式可讓團隊掌握雲端支出,並鼓勵他們在分配到的預算內做出符合成本效益的決策。
- 提高透明度:鼓勵團隊在設計和決策過程中討論成本影響。建立安全且有助於發揮的環境,讓大家分享與成本最佳化相關的想法和疑慮。部分機構會使用排行榜或表揚計畫等正向強化機制。如果貴機構因業務考量而限制分享原始費用資料,請考慮改用其他方式分享費用資訊和洞察。舉例來說,您可以分享匯總指標 (例如環境或功能的總費用),或是相對指標 (例如每筆交易或每位使用者的平均費用)。
瞭解雲端資源的計費方式
Google Cloud 資源的價格可能因區域而異。 部分資源會按月收取固定費用,其他資源則可能依用量計費。如要瞭解 Google Cloud 資源的計費方式,請使用Google Cloud 價格計算機, 並參考產品專屬的價格資訊 (例如 Google Kubernetes Engine (GKE) 價格)。
瞭解以資源為準的成本最佳化選項
針對您打算使用的每種雲端資源,探索可提高使用率和效率的策略。這些策略包括適當調整大小、自動調度資源,以及採用無伺服器技術。以下列舉幾項 Google Cloud 產品的成本最佳化選項:
- Cloud Run 可讓您設定「隨時分配 CPU」,以處理可預測的流量負載,且價格僅為預設分配方式 (即只在要求處理期間分配 CPU) 的一小部分。
- 您可以購買 BigQuery 運算單元承諾使用合約,節省資料分析費用。
- GKE 提供詳細指標,協助您瞭解成本最佳化選項。
- 瞭解網路定價如何影響資料移轉費用,以及如何針對特定網路服務提高成本效益。舉例來說,您可以使用 Cloud CDN 或 Google Cloud Armor,降低外部應用程式負載平衡器的資料傳輸費用。詳情請參閱「降低外部應用程式負載平衡器成本的方法」。
瞭解以折扣為基礎的成本最佳化選項
請詳閱 Google Cloud 提供的折扣方案, 例如:
- 承諾使用折扣 (CUD): CUD 適用於用量可預測且穩定的資源。只要承諾在一段時間內 (通常為一到三年) 使用特定資源,即可享有承諾使用折扣 (CUD),大幅降低價格。您也可以使用承諾使用折扣自動續約,避免承諾使用折扣到期時必須手動重新購買。
- 續用折扣: 對於 Compute Engine 和 GKE 等特定 Google Cloud 產品,只要持續使用資源超過特定時間門檻,即可獲得自動折扣抵免額。
- Spot VM: 對於容錯和彈性工作負載,Spot VM 有助於降低 Compute Engine 費用。Spot VM 的費用遠低於一般 VM。不過,Compute Engine 可能會先占停止或刪除 Spot VM,以回收容量。Spot VM 適用於可容許先占且沒有高可用性要求的批次工作。
- 特定產品選項的折扣:部分代管服務 (例如 BigQuery) 提供折扣, 只要購買專屬或自動調整的查詢處理容量,即可享有優惠。
評估並選擇符合工作負載特性和用量模式的折扣選項。
將費用估算納入架構藍圖
鼓勵團隊開發架構藍圖,其中包含不同部署選項和設定的成本估算。這項做法可讓團隊主動比較費用,並根據技術和財務目標做出明智決策。
為所有資源使用一致的標準標籤集
您可以使用標籤追蹤費用,以及識別和分類資源。具體來說,您可以使用標籤將費用分配給不同的專案、部門或成本中心。定義符合貴機構主要利害關係人需求的正式標籤政策,有助於更廣泛地顯示費用。您也可以使用標籤,根據目標對象篩選資源費用和用量資料。
使用 Terraform 等自動化工具,對建立的每個資源強制執行標籤。如要進一步提高成本掌握度和歸因,可以使用開放原始碼成本歸因解決方案提供的工具。
與團隊成員共用費用報表
與團隊成員共用費用報表,讓他們能掌握雲端支出情形。這項做法有助於做出符合成本效益的決策、持續最佳化成本,以及系統性地改善成本分配模型。
費用報表類型包括:
- 定期費用報表:定期報表可讓團隊瞭解目前的雲端支出。傳統上,這些報表可能會匯出為試算表。 更有效的方法包括自動電子郵件和專用資訊主頁。 為確保費用報表提供實用且可做為行動依據的資訊,且不會提供過多不必要的詳細資料,導致收件者難以消化,報表必須根據目標對象量身打造。設定自訂報表是基礎步驟,有助於即時查看及管理互動式費用。
- 自動通知:您可以設定費用報表,主動透過電子郵件或即時通訊等方式,通知相關利害關係人費用異常、預算門檻或費用最佳化機會。自動警示會直接向可採取行動的人員提供即時資訊,鼓勵他們迅速採取行動,並以積極主動的方式進行成本最佳化。
- Google Cloud 資訊主頁:您可以使用 Google Cloud 內建的帳單資訊主頁,深入瞭解費用明細,並找出可進行成本最佳化的機會。 Google Cloud 也提供 FinOps 中心,協助您監控節省的費用,並取得成本最佳化建議。FinOps 中心採用 AI 引擎,可針對目前部署的所有資源,建議成本最佳化機會。如要控管這些建議的存取權,您可以實作角色型存取控管 (RBAC)。
- 自訂資訊主頁:您可以將費用資料匯出至 BigQuery 等數據分析資料庫,建立自訂資訊主頁。使用 Looker Studio 等視覺化工具連結至資料分析資料庫,建立互動式報表,並透過角色型權限啟用精細的存取權控管。
- 多雲端費用報表:對於多雲端部署,您需要統一檢視所有雲端供應商的費用,確保全面分析、編列預算及進行最佳化。使用 BigQuery 等工具集中管理及分析多個雲端供應商的費用資料,並使用 Looker Studio 建構團隊專屬的互動式報表。
充分善用資源
Google Cloud 架構完善架構的成本最佳化支柱中,這項原則提供相關建議,協助您規劃及佈建資源,以符合雲端工作負載的需求和消耗模式。
原則總覽
如要盡量節省雲端資源費用,您必須充分瞭解工作負載的資源需求和負載模式。瞭解這些資訊後,您就能定義完善的成本模型,預測總持有成本 (TCO),並在採用雲端的過程中找出費用增加原因。主動分析及預測雲端支出,有助您根據資訊做出資源佈建、使用率和成本最佳化方面的決策。這種做法可讓您控管雲端支出、避免過度佈建,並確保雲端資源符合工作負載和環境的動態需求。
建議
如要有效最佳化雲端資源用量,請考慮下列建議。
選擇環境專屬資源
每個部署環境對可用性、可靠性和擴充性的要求都不同。舉例來說,開發人員可能偏好能快速部署及執行應用程式的環境,但不需要高可用性。另一方面,正式環境通常需要高可用性。為盡量提高資源使用率,請根據業務需求定義環境專屬需求。下表列出環境專屬需求的範例。
環境 | 相關規定 |
正式版 |
|
開發和測試 |
|
其他環境 (例如測試和 QA) |
|
選擇工作負載專屬資源
您的每個雲端工作負載可能對可用性、擴充性、安全性和效能有不同要求。如要盡量節省費用,請根據各工作負載的具體需求,選擇合適的資源。舉例來說,無狀態應用程式可能不需要與有狀態後端相同的可用性或可靠性。下表列出更多工作負載專屬需求的範例。
工作負載類型 | 工作負載需求 | 資源選項 |
重要業務 | 持續可用性、強大的安全性與高效能 | Spanner 等進階資源和代管服務,可確保資料的高可用性和全球一致性。 |
非重要 | 符合成本效益且可自動調度的基礎架構 | 具備基本功能的資源,以及Spot VM 等暫時性資源。 |
事件導向 | 根據目前的容量和效能需求動態調整資源 | 無伺服器服務,例如 Cloud Run 和 Cloud Run 函式。 |
實驗性工作負載 | 低成本且彈性的環境,可快速開發、疊代、測試及創新 | 具備基本功能的資源、臨時資源 (例如 Spot VM),以及設有支出上限的沙箱環境。 |
雲端的一項優點是,您可針對特定工作負載,充分運用最合適的運算效能。有些工作負載是為了充分運用處理器指令集而開發,有些則可能並非如此設計。請據此為工作負載建立基準和設定檔。將工作負載分類,並根據工作負載選擇資源 (例如為 Compute Engine VM 選擇合適的機器系列)。這項做法有助於節省成本、促進創新,並維持工作負載所需的可用性和效能水準。
以下是實作這項建議的範例:
- 如果重要工作負載要服務全球各地的使用者,建議使用 Spanner。Spanner 可確保所有區域的資料可靠且一致,因此您不必進行複雜的資料庫部署作業。
- 對於負載量波動的工作負載,請使用自動調度資源功能,確保負載量偏低時不會產生費用,同時維持足夠的容量來因應目前的負載。您可以為許多Google Cloud 服務設定自動調度資源,包括 Compute Engine VM、Google Kubernetes Engine (GKE) 叢集和 Cloud Run。設定自動調整規模時,您可以設定最高調整規模限制,確保費用維持在指定預算內。
依據費用需求選取區域
針對雲端工作負載,請仔細評估可用的 Google Cloud區域,並選擇符合成本目標的區域。成本最低的區域可能無法提供最佳延遲時間,或不符合永續發展需求。根據這些資訊,決定要在何處部署工作負載,以達到理想的平衡。您可以透過Google Cloud 區域挑選器,瞭解成本、永續性、延遲和其他因素之間的取捨。
使用內建的成本最佳化選項
Google Cloud 產品提供內建功能,可協助您最佳化資源用量及控管成本。下表列出部分 Google Cloud 產品中可用的成本最佳化功能示例:
產品 | 成本最佳化功能 |
Compute Engine | |
GKE | |
Cloud Storage | |
BigQuery |
|
Google Cloud VMware Engine |
|
充分善用資源共用功能
為盡量提高雲端資源的使用率,您可以在相同基礎架構上部署多個應用程式或服務,同時仍符合應用程式的安全性和其他需求。舉例來說,在開發和測試環境中,您可以使用相同的雲端基礎架構,測試應用程式的所有元件。在正式環境中,您可以將每個元件部署到不同的資源集,以限制事件發生時的影響範圍。
以下是實作這項建議的範例:
- 為多個非正式環境使用單一 Cloud SQL 執行個體。
- 啟用 GKE Enterprise 中的機群團隊管理功能,並設定適當的存取權控管機制,即可讓多個開發團隊共用一個 GKE 叢集。
- 使用 GKE Autopilot,充分運用 GKE 預設採用的成本最佳化技術,例如裝箱和自動調度。
- 對於 AI 和機器學習工作負載,請使用GPU 共用策略 (例如多執行個體 GPU、分時 GPU 和 NVIDIA MPS),節省 GPU 費用。
開發及維護參考架構
建立並維護參考架構存放區,這些架構會根據不同部署環境和工作負載類型的需求量身打造。為簡化個別專案的設計和實作程序,藍圖可由雲端卓越中心 (CCoE) 等團隊集中管理。專案團隊可以根據明確定義的條件選擇合適的藍圖,確保架構一致性並採用最佳做法。如需專案專屬的規定,專案團隊和中央架構團隊應合作設計新的參考架構。您可以在整個機構中分享參考架構,促進知識交流,並擴充可用解決方案的存放區。這種做法可確保一致性、加快開發速度、簡化決策程序,並提高資源使用效率。
請參閱 Google 針對各種用途和技術提供的參考架構。這些參考架構採用資源選取、大小、設定和部署的最佳做法。使用這些參考架構,可加快開發程序,並從一開始就節省成本。
使用機構政策強制執行成本控管
建議使用機構政策,限制團隊成員可使用的 Google Cloud 地點和產品。這些政策可確保團隊採用符合成本效益的解決方案,並在符合成本最佳化目標的位置佈建資源。
預估實際預算並設定財務限制
為每個專案、工作負載和部署環境制定詳細預算。請確保預算涵蓋雲端作業的所有層面,包括基礎架構成本、軟體授權、人事和預期成長。為避免支出過度,並確保符合財務目標,請為專案、服務或特定資源設定明確的支出上限或門檻。請定期監控雲端支出是否超出這些限制。您可以透過主動配額快訊提早發現潛在的費用超支問題,並及時採取修正措施。
除了設定預算,您也可以使用配額和限制,協助落實成本控管,並避免支出意外暴增。您可以在不同層級 (包括專案、服務,甚至是特定資源類型) 設定配額,精細控管資源耗用量。
以下是實作這項建議的範例:
- 專案層級配額:在專案層級設定支出上限或資源配額,建立整體財務界線,並控管專案中所有服務的資源消耗量。
- 服務專屬配額:設定特定服務 (例如 Compute Engine 或 BigQuery) 的配額,限制可佈建的執行個體、CPU 或儲存空間容量數量。 Google Cloud
- 資源類型專屬配額:為個別資源類型 (例如 Compute Engine VM、Cloud Storage 值區、Cloud Run 執行個體或 GKE 節點) 套用配額,限制資源用量,避免費用超出預期。
- 配額快訊:當專案層級的配額用量達到最大值的某個百分比時,系統會傳送通知。
搭配使用配額和限制、預算和監控功能,即可建立主動式多層成本控管方法。這種做法有助於確保雲端支出維持在定義的範圍內,並符合業務目標。請注意,這些費用控制項並非永久或固定不變。為確保成本控制措施符合目前的業界標準,並反映不斷變化的業務需求,請務必定期檢查控制措施,並進行調整,納入新技術和最佳做法。
持續進行最佳化
Google Cloud Well-Architected Framework 的成本最佳化支柱提供這項原則,根據不斷變動和演進的業務目標,提供最佳化雲端部署成本的建議。
隨著業務成長和演進,雲端工作負載也需要配合資源需求和使用模式的變化進行調整。如要充分發揮雲端支出的價值,您必須維持成本效益,同時繼續支援業務目標。因此,您需要採取主動式做法,並根據情況調整策略,持續改善及最佳化。
原則總覽
如要持續節省成本,您必須主動監控及分析雲端環境,並根據目前需求進行適當調整。監控工作應著重於主要成效指標 (KPI),這些指標會直接影響使用者的體驗、符合業務目標,並提供持續改善的洞察資料。這種做法可讓您找出並解決效率不彰的問題、因應不斷變化的需求,以及持續根據策略性業務目標調整雲端支出。如要兼顧全面監控和成本效益,請瞭解監控資源用量的成本和效益,並採用適當的流程改善和最佳化策略。
建議
如要有效監控 Google Cloud 環境並持續提高成本效益,請參考下列建議。
著重於與業務相關的指標
有效監控的第一步,是找出對商家和消費者最重要的指標。這些指標包括:
- 使用者體驗指標:延遲、錯誤率、輸送量和顧客滿意度指標,有助於瞭解使用者使用應用程式時的體驗。
- 業務成果指標:收益、顧客成長和參與度可能與資源用量相關,因此您可以找出成本最佳化的商機。
- 開發運作研究與評估 (DORA) 指標:部署頻率、變更的前置時間、變更失敗率和還原時間等指標,可深入瞭解軟體推送程序的效率和可靠性。改善這些指標可提高生產力、減少停機時間,並最佳化成本。
- 網站可靠性工程 (SRE) 指標:錯誤預算可協助團隊量化及管理可接受的服務中斷程度。明確設定可靠性期望值後,團隊就能更放心地創新及部署變更,因為他們知道安全邊際。這種積極主動的做法有助於在創新和穩定之間取得平衡,避免因重大中斷或長時間停機而產生過高的營運成本。
運用可觀測性來最佳化資源
以下是相關建議,可協助您運用可觀測性,找出雲端部署作業中的資源瓶頸和未充分利用的資源:
- 監控資源使用率:使用資源使用率指標找出使用率偏低的資源。Google Cloud 舉例來說,您可以運用 CPU 和記憶體使用率等指標,找出閒置的 VM 資源。如果是 Google Kubernetes Engine (GKE),您可以查看詳細的費用明細, 以及費用相關最佳化指標。 如果是 Google Cloud VMware Engine,請查看資源用量,盡量充分利用 CUD、減少儲存空間用量,並將 ESXi 調整至最符合需求的規模。
- 使用雲端建議:Active Assist 是一系列智慧工具,可協助您將雲端作業調整至最佳狀態。這些工具會提供實用建議,協助您降低成本、提高效能、改善安全性,甚至是做出更符合永續精神的決策。舉例來說,VM 資源調整洞察可協助您調整資源分配,避免不必要的支出。
- 將資源用量與效能相互比較:分析資源用量與應用程式效能之間的關係,判斷是否能降級至較便宜的資源,同時不影響使用者體驗。
根據成本平衡疑難排解需求
詳細的觀測資料有助於診斷及排解問題。 不過,如果儲存過多的可觀測性資料,或將不必要的資料匯出至外部監控工具,可能會產生不必要的費用。如要有效排除問題,請考慮下列建議:
- 收集足夠的資料以利疑難排解:確保監控解決方案擷取足夠的資料,以便在發生問題時有效診斷及解決。這類資料可能包括各種精細程度的記錄、追蹤和指標。
- 使用取樣和彙整功能:使用取樣和彙整技術,兼顧詳細資料需求和成本考量。這種做法可讓您收集代表性資料,且不會產生過高的儲存空間費用。
- 瞭解監控工具和服務的計價模式:評估不同的監控解決方案,然後選擇符合專案特定需求、預算和用量模式的選項。選取時,請考量資料量、保留需求和必要功能等因素。
- 定期檢查監控設定:移除不必要的指標或記錄,避免收集過多資料。
根據角色調整資料收集方式,並設定角色專屬的保留政策
請考量不同角色的特定資料需求。舉例來說,開發人員可能主要需要存取追蹤記錄和應用程式層級記錄,而 IT 管理員則可能著重於系統記錄和基礎架構指標。量身打造資料收集方式,可減少不必要的儲存成本,並避免向使用者提供不相關的資訊。
此外,您也可以根據各個角色和任何法規需求,定義保留政策。舉例來說,開發人員可能需要存取較短時間內的詳細記錄,而財務分析師可能需要較長期的資料。
考量法規和法規遵循需求
在某些產業,法規要求必須保留資料。為避免法律和財務風險,請務必確保監控和資料保留做法符合相關法規。同時維持成本效益。請參考下列建議:
- 判斷您所屬產業或區域的特定資料保留規定,並確保監控策略符合這些規定。
- 導入適當的資料封存和擷取機制,以滿足稽核和法規遵循需求,同時盡量降低儲存空間成本。
實作智慧快訊
快訊功能可協助您及時偵測及解決問題。不過,您必須在通知量適中和通知量過多之間取得平衡。設計智慧型快訊系統,優先處理對業務影響較大的重大問題。請參考下列建議:
- 優先處理影響客戶的問題:針對直接影響客戶體驗的問題 (例如網站中斷、回應時間緩慢或交易失敗),設計可快速觸發的快訊。
- 針對暫時性問題進行調整:使用適當的門檻和延遲機制,避免因暫時性問題或不會影響客戶的系統自動修復問題,而發出不必要的快訊。
- 自訂快訊嚴重程度:區分重大和非重大快訊,確保最緊急的問題能立即獲得處理。
- 善用通知管道:根據快訊的嚴重程度和緊急程度,選擇合適的管道來接收快訊通知 (電子郵件、簡訊或呼叫器)。