私有雲維護和更新

私有雲環境的設計方式如下,可避免單一故障點:

  • ESXi 叢集會設定 vSphere 高可用性 (HA)。叢集的大小應至少有一個備用節點,以確保彈性。
  • vSAN 提供備援主儲存空間,至少需要三個節點才能防範單一節點故障。對於較大的叢集,您可以設定 vSAN 來提供更高的復原能力。
  • vCenter、PSC 和 NSX Manager 虛擬機器 (VM) 會設定 RAID-10 儲存空間,以防儲存空間故障。另外,vSphere HA 還可防範節點和網路故障,保護 VM。
  • ESXi 主機有備援風扇和網路介面卡。
  • TOR 和脊椎交換器會以 HA 組合設定,提供復原能力。

VMware Engine 會持續監控運作時間、可用性,並為下列類型的 VM 提供可用性服務水準協議:

  • ESXi 主機
  • vCenter
  • PSC
  • NSX Manager

VMware Engine 會持續監控下列項目是否發生失敗:

  • 硬碟
  • 實體 NIC 連接埠
  • 伺服器
  • 粉絲
  • 功率
  • 開關
  • 切換通訊埠

如果磁碟或節點發生故障,VMware Engine 會立即自動在受影響的 VMware 叢集中新增節點,以便恢復服務運作。私有雲會執行下列程序:

  • 自動監控和警示:我們的監控系統會持續追蹤節點的健康狀態。系統偵測到可能的硬體故障問題時,就會觸發警報。
  • 人工診斷:雖然系統設計為自動更換,但工程師會查看這些警示,快速找出問題根源。這可確保我們解決正確的問題,並在建議採用更簡單的解決方案 (例如重新啟動) 時,避免不必要的節點替換作業。舉例來說,暫時性的網路問題或軟體故障可能會觸發與硬體故障類似的警示,而我們希望避免在可能不是建議的情況下,以節點替換的方式影響叢集。不必要的節點替換作業會觸發完整的 vSAN 重新同步處理作業,這是需要大量儲存空間 I/O 的作業。
  • 硬體故障的自動節點替換程序:如果工程師確認硬體故障,系統就會立即開始自動節點替換程序。叢集會新增新節點,vSAN 會在該節點上啟動資料重新同步處理作業。

私人雲端中的下列 VMware 元素會備份、維護及更新:

  • ESXi
  • vCenter Platform Services Controller
  • vSAN
  • NSX

備份與還原

備份內容包括:

  • 每天晚上執行 vCenter、PSC 和 DVS 規則的增量備份。
  • vCenter 原生 API,可備份應用程式層的元件。
  • 在更新或升級 VMware 管理軟體前,自動備份。

維護

包含下列類型的預定維護作業。

後端和內部維護

後端和內部維護作業通常包括重新設定實體資產或安裝軟體修補程式。不會影響服務中資產的正常使用情形。由於每個實體機架都有備用的網路介面卡,因此不會影響正常的網路流量和私人雲端作業。只有在貴機構預期在維護期間使用完整的備援頻寬時,才可能會發現效能受到影響。

入口網站維護

更新控制層或基礎架構時,服務會暫時關閉。維護作業的間隔可能會縮短至每月一次,且預計會隨著時間推移而減少。VMware Engine 會通知您即將進行的入口網站維護作業,並盡力縮短維護間隔時間。在入口網站維護期間,下列服務會繼續運作,不會受到任何影響:

  • VMware 管理層和應用程式
  • vCenter 存取權
  • 所有網路和儲存空間

VMware 基礎架構維護

有時需要變更 VMware 基礎架構的設定。這些間隔可能每 1 到 2 個月發生一次,但頻率預計會隨時間下降。這類維護作業通常不會中斷一般私有雲使用情形。在 VMware 維護期間,下列服務會繼續運作,不會受到任何影響:

  • VMware 管理層和應用程式
  • vCenter 存取權
  • 所有網路和儲存空間

更新和升級

VMware Engine 負責管理私有雲中的 VMware 軟體 (ESXi、vCenter、PSC 和 NSX) 生命週期。

軟體更新內容包括:

  • 修補程式:VMware 發布的安全性修補程式或錯誤修正程式
  • 更新:VMware 堆疊元件的次要版本變更
  • 升級:VMware 堆疊元件的重大版本變更

VMware Engine 會在 VMware 提供重要安全性修補程式後立即進行測試。Google 會在相關重要修補程式可供使用後一週內,開始在私有雲環境中推出這些修補程式。實際修補完成時間會因排程可用性而異,並需要安排修補作業時間,以免造成客戶工作負載的任何停機時間。

當新的 VMware 軟體主要版本推出時,VMware Engine 會與客戶合作,協調適合套用升級的維護時段。VMware Engine 會在主要版本發布後至少六個月,為客戶套用主要版本升級,並在套用主要版本升級前一個月通知客戶。

VMware Engine 也與重要產業供應商合作,確保他們在推出重大版本升級前,能支援最新的 VMware 軟體版本。如需特定供應商的支援資訊,請與 Cloud Customer Care 聯絡

憑證更新責任

憑證更新是 Google 的責任。如果您收到憑證更新錯誤,則無需採取任何行動,憑證會在到期前續約。不過,如果 LDAPS 是在私有雲中設定,您就必須自行負責與該錯誤相關的特定憑證。

準備作業

Google 建議您在開始更新或升級前,先採取下列準備措施:

  • 檢查儲存空間容量:請確保 vSphere 叢集的儲存空間使用率低於 80%,以維持SLA。如果使用率超過 80%,升級作業可能會比平常耗時更久,甚至完全失敗。如果儲存空間使用率超過 70%,請新增節點來擴充叢集,避免升級期間發生任何可能的停機時間。
  • 變更 FTT 為 0 的 vSAN 儲存空間政策:變更使用容錯數量 (FTT) 為 0 的 vSAN 儲存空間政策來設定的 VM,改為 FTT 為 1 的 vSAN 儲存空間政策,以便維持服務水準協議。
  • 移除 VM CD 掛載:移除工作負載 VM 中掛載的任何 CD,這些 CD 與 vMotion 不相容。
  • 完成 VMware 工具安裝作業:在預定升級作業開始前,完成任何 VMware 工具的安裝或升級作業。
  • 移除 VM 上的 SCSI 匯流排共用功能:如果您不想關閉 VM,請移除 VM 上的 SCSI 匯流排共用功能。
  • 移除無法存取的 VM 和資料儲存庫:從 vCenter 產品目錄中移除未使用的 VM 和無法存取的 VM。移除所有無法存取的外部資料儲存庫。
  • 停用分散式資源排程器 (DRS) 規則:將 DRS 規則釘選至主機的 VM,可防止節點進入維護模式。您可以在升級前停用 DRS 規則,並在升級完成後啟用。
  • 更新 VMware 外掛程式和第三方解決方案:請確認在私有雲 vCenter 上部署的 VMware 外掛程式和第三方解決方案,與先前提到的升級後版本相容。這類工具的範例包括備份、監控、災難復原調度和其他類似功能。請與解決方案供應商聯絡,並視需要提前更新,確保升級後的相容性。

可能影響維護程序的設定

VMware Engine 會利用 VMware 的維護模式執行升級、更新和節點維護作業。這有助於確保私有雲工作負載持續運作。不過,下列設定可能需要額外步驟,才能讓節點進入維護模式:

  • DRS 規則:強制 VM 停留在特定節點的強制規則。
  • SCSI 匯流排共用:已設定為共用 SCSI 匯流排的 VM。
  • CD-ROM 掛載:已連結 CD-ROM 的 VM,尤其是無法使用 vMotion 將 CD-ROM 移至其他節點的 VM。
  • 序列埠連線:使用序列埠連線的 VM,會導致無法使用 vMotion 將 VM 移至其他節點。
  • 原始裝置對應 (RDM):VM 直接存取實體儲存裝置。

是否需要採取行動

如果節點上有任何這類設定,Cloud Customer Care 會在採取必要的修復步驟前,至少提前 24 小時通知您,以便維持私有雲端的運作。在某些情況下,關閉 VM 並透過 vMotion 移動,然後開啟 VM,或移除 CD-ROM 等步驟,可能會暫時中斷工作負載。

後續步驟