私有云维护和更新

私有云环境的设计方式如下,可消除单点故障:

  • ESXi 集群已配置为具备 vSphere 高可用性 (HA)。集群的规模已进行调整,至少有一个备用节点以实现弹性。
  • vSAN 提供冗余主存储空间,至少需要三个节点来防范单点故障。对于较大的集群,您可以配置 vSAN 以提供更高的弹性。
  • vCenter、PSC 和 NSX Manager 虚拟机 (VM) 配置有 RAID-10 存储空间来防范存储故障。此外,虚拟机还可以通过 vSphere 高可用性防范节点和网络故障。
  • ESXi 主机具有冗余风扇和 NIC。
  • TOR 和主交换机以高可用性方式成对配置,以提供弹性。

VMware Engine 会持续监控正常运行时间、监控可用性,并为以下类型的虚拟机提供可用性服务等级协议 (SLA):

  • ESXi 主机
  • vCenter
  • PSC
  • NSX Manager

VMware Engine 会持续监控以下各项是否出现故障:

  • 硬盘
  • 物理 NIC 端口
  • 服务器
  • 风扇
  • 电源
  • 交换机
  • 交换机端口

如果磁盘或节点出现故障,则 VMware Engine 会立即自动向受影响的 VMware 集群添加新节点,以恢复服务可操作性。

系统会备份、维护和更新私有云中的以下 VMware 元素:

  • ESXi
  • vCenter Platform Services Controller
  • vSAN
  • NSX

备份和恢复

备份包括:

  • vCenter、PSC 和 DVS 规则的夜间增量备份。
  • 用于备份应用层组件的 vCenter 原生 API。
  • 在更新或升级 VMware 管理软件之前自动备份。

维护

包含以下类型的计划维护。

后端和内部维护

后端和内部维护通常涉及重新配置物理资源或安装软件补丁程序。它不会影响所服务的资源的正常消耗。由于冗余 NIC 会进入每个物理机架,因此正常网络流量和私有云操作不受影响。只有当您的组织预计在维护间隔期间使用全部冗余带宽时,您才可能注意到性能影响。

门户维护

更新控制层面或基础架构时,需要一些有限的服务停机时间。维护间隔的频率可以为每月一次,并且该频率预计会随着时间推移而下降。VMware Engine 会通知您即将进行门户维护,并尽力缩短维护间隔。在门户维护间隔期间,以下服务将继续正常运行,没有任何影响:

  • VMware 管理层面和应用
  • vCenter 访问权限
  • 所有网络和存储空间

VMware 基础架构维护

偶尔会需要更改 VMware 基础架构的配置。这些间隔可能每 1-2 个月发生一次,但频率预计会随时间推移而下降。这种类型的维护通常不会中断正常的私有云消耗。在 VMware 维护间隔期间,以下服务将继续运行,没有任何影响:

  • VMware 管理层面和应用
  • vCenter 访问权限
  • 所有网络和存储空间

更新和升级

VMware Engine 负责对私有云中的 VMware 软件(ESXi、vCenter、PSC 和 NSX)进行生命周期管理。

软件更新包括以下内容:

  • 补丁程序:VMware 发布的安全补丁程序或 Bug 修复
  • 更新:VMware 堆栈组件的次要版本变更
  • 升级:VMware 堆栈组件的主要版本变更

在 VMware 提供重要安全补丁程序后,VMware Engine 会立即对其进行测试。根据服务等级协议 (SLA),VMware Engine 会在安全补丁程序发布后一周内针对其发布安全补丁程序。

当有新的主要版本的 VMware 软件可用时,VMware Engine 会与客户合作,协调应用升级的适当维护期。在主要版本发布后的至少六个月内,VMware Engine 会应用主要版本升级,并在应用主要版本升级前一个月通知客户。

VMware Engine 还与主要行业供应商合作,以确保在发布主要版本升级之前支持最新的 VMware 软件版本。如需了解特定供应商的支持服务,请与 Cloud Customer Care 团队联系

证书更新责任

证书更新由 Google 负责。如果您收到证书更新错误,则无需执行任何操作,证书会在到期前续订。不过,如果您在私有云中配置了 LDAPS,则您将对与该错误相关联的特定证书承担全部责任。

准备工作

Google 建议您在开始更新或升级之前做好以下准备:

  • 检查存储空间容量:确保 vSphere 集群的存储空间利用率低于 80% 以维持SLA。如果利用率高于 80%,则升级过程可能需要比正常情况更长的时间,也可能完全失败。如果存储空间利用率高于 70%,请添加一个节点来扩展集群,并避免升级期间出现任何可能的停机。
  • 更改 FTT 为 0 的 vSAN 存储政策:将使用故障容忍度 (FTT) 为 0 的 vSAN 存储政策进行配置的虚拟机更改为使用 FTT 为 1 的 vSAN 存储政策以保留 SLA。
  • 移除虚拟机 CD 装载:移除在工作负载虚拟机上装载的任何与 vMotion 不兼容的 CD。
  • 完成 VMware 工具安装:在计划升级开始之前,完成 VMware 工具安装或升级。
  • 移除虚拟机上的 SCSI 总线共享:如果您不希望关闭虚拟机的电源,请移除虚拟机上的 SCSI 总线共享。
  • 移除无法访问的虚拟机和数据存储区:从 vCenter 库存中移除未使用的虚拟机和无法访问的虚拟机。移除所有无法访问的外部数据存储区。
  • 停用分布式资源调度器 (DRS) 规则:将虚拟机固定到主机的 DRS 规则会阻止节点进入维护模式。您可以在升级之前停用 DRS 规则,并在升级完成后启用这些规则。
  • 更新 VMware 插件和第三方解决方案:验证您的私有云 vCenter 上部署的 VMware 插件和第三方解决方案与之前提到的升级后版本兼容。工具示例包括用于备份、监控、灾难恢复编排和其他类似功能的工具。请咨询解决方案供应商,并根据需要提前更新,以确保升级后兼容性。

可能会影响维护流程的配置

VMware Engine 利用 VMware 的维护模式执行升级、更新和节点维护。这有助于确保您的私有云工作负载持续运行。不过,以下配置可能需要执行额外的步骤,才能让节点进入维护模式:

  • DRS 规则:强制虚拟机留在特定节点上的 MUST 规则。
  • SCSI 总线共享:配置为共享 SCSI 总线的虚拟机。
  • CD-ROM 挂载:已连接 CD-ROM 的虚拟机,尤其是无法使用 vMotion 将这些 CD-ROM 移至其他节点的虚拟机。
  • 串行端口连接:使用串行端口连接的虚拟机,这会导致无法使用 vMotion 将其迁移到其他节点。
  • 原始设备映射 (RDM):虚拟机直接访问物理存储设备。

如有必要采取行动

如果节点存在上述任何配置,Cloud Customer Care 会在采取维护步骤以确保专用云的可用性之前至少提前 24 小时通知您。在某些情况下,关闭虚拟机并使用 vMotion 将其移动到其他位置,然后再开机,或者移除 CD-ROM 等步骤可能会暂时中断您的工作负载。

后续步骤