本頁面由 Cloud Translation API 翻譯而成。

管理及監控 Google Cloud 基礎架構

Last reviewed 2024-11-20 UTC

將應用程式部署至 Google Cloud的正式環境後，您可能需要修改應用程式使用的基礎架構。舉例來說，您可能需要變更 VM 的機器類型，或變更 Cloud Storage 值區的儲存空間類別。Google Cloud 基礎架構可靠性指南的這一部分將概述變更管理指南，您可以遵循這些指南，降低基礎架構資源的可靠性風險。本節也會說明如何監控 Google Cloud 基礎架構的可用性。

逐步部署基礎架構變更

如需變更 Google Cloud 基礎架構，請盡可能逐步將變更部署至正式環境。舉例來說，如果您需要變更 VM 的機器類型，請將變更部署至一個區域中的幾個 VM，然後監控變更的效果。如果您發現任何問題，請盡快將基礎架構還原為先前的穩定狀態。診斷並解決問題，然後重新啟動漸進式部署程序。確認工作負載運作正常後，請逐步在整個基礎架構中部署變更。

控管全域資源的變更

修改 VPC 網路和全域負載平衡器等全域資源時，請務必先確認變更內容，再部署至實際環境。

由於全域資源可在區域和區域服務中斷時恢復正常，因此您可能會決定在架構中使用特定全域資源的單一例項。在這種部署作業中，全域資源可能會成為單點故障。舉例來說，如果您不小心誤設全域負載平衡器的轉送規則，前端可能會停止接收或處理使用者要求。在這種情況下，雖然後端完好無缺，但應用程式仍無法供使用者使用。為避免這種情況，請嚴格控管全域資源的變更。舉例來說，在變更審查程序中，您可以將任何全域資源修改項目歸類為高風險變更，並要求其他審查人員進行驗證和核准。

監控 Google Cloud 基礎架構的可用性

您可以使用Google Cloud Service Health 資訊主頁，監控所有區域的 Google Cloud 服務目前狀態。您也可以查看每項服務的基礎架構失敗 (稱為「事件」) 記錄。記錄頁面會提供每個事件的詳細資料，例如事件持續時間、受影響的區域和區域、受影響的服務，以及任何建議的解決方法。

您也可以使用 Personalized Service Health 查看與專案相關的事件。Service Health 也能讓您根據個別專案或機構，使用 API 要求事件資訊，並設定警示。

Google 會定期更新每個事件的狀態，包括下次更新的預估時間。您可以使用 RSS 動態消息，透過程式輔助方式取得事件的狀態更新。詳情請參閱「事件和 Google Cloud Service Health 資訊主頁」。

管理流量和負載

後續主題