管理及監控 Google Cloud 基礎架構

Last reviewed 2024-11-20 UTC

將應用程式部署至 Google Cloud的正式環境後,您可能需要修改應用程式使用的基礎架構。舉例來說,您可能需要變更 VM 的機器類型,或變更 Cloud Storage 值區的儲存空間類別。Google Cloud 基礎架構可靠性指南的這一部分將概述變更管理指南,您可以遵循這些指南,降低基礎架構資源的可靠性風險。本節也會說明如何監控 Google Cloud 基礎架構的可用性。

逐步部署基礎架構變更

如需變更 Google Cloud 基礎架構,請盡可能逐步將變更部署至正式環境。舉例來說,如果您需要變更 VM 的機器類型,請將變更部署至一個區域中的幾個 VM,然後監控變更的效果。如果您發現任何問題,請盡快將基礎架構還原為先前的穩定狀態。診斷並解決問題,然後重新啟動漸進式部署程序。確認工作負載運作正常後,請逐步在整個基礎架構中部署變更。

控管全域資源的變更

修改 VPC 網路和全域負載平衡器等全域資源時,請務必先確認變更內容,再部署至實際環境。

由於全域資源可在區域和區域服務中斷時恢復正常,因此您可能會決定在架構中使用特定全域資源的單一例項。在這種部署作業中,全域資源可能會成為單點故障。舉例來說,如果您不小心誤設全域負載平衡器的轉送規則,前端可能會停止接收或處理使用者要求。在這種情況下,雖然後端完好無缺,但應用程式仍無法供使用者使用。為避免這種情況,請嚴格控管全域資源的變更。舉例來說,在變更審查程序中,您可以將任何全域資源修改項目歸類為高風險變更,並要求其他審查人員進行驗證和核准。

監控 Google Cloud 基礎架構的可用性

您可以使用Google Cloud Service Health 資訊主頁,監控所有區域的 Google Cloud 服務目前狀態。您也可以查看每項服務的基礎架構失敗 (稱為「事件」) 記錄。記錄頁面會提供每個事件的詳細資料,例如事件持續時間、受影響的區域和區域、受影響的服務,以及任何建議的解決方法。

您也可以使用 Personalized Service Health 查看與專案相關的事件。Service Health 也能讓您根據個別專案或機構,使用 API 要求事件資訊,並設定警示。

Google 會定期更新每個事件的狀態,包括下次更新的預估時間。您可以使用 RSS 動態消息,透過程式輔助方式取得事件的狀態更新。詳情請參閱「事件和 Google Cloud Service Health 資訊主頁」。