维护简介

本页介绍了 Memorystore for Valkey 如何对实例执行维护。它还提供了一些信息和配置建议,您的客户端应用必须了解这些信息和建议,才能充分利用 Memorystore for Valkey 的零停机维护设计。这些建议适用于高可用性实例和不使用副本的实例。不过,对于所有生产用例,我们强烈建议您使用高可用性配置。

Memorystore for Valkey 会定期更新实例,以确保服务可靠、高性能、安全且是最新版本。这些更新称为维护。维护由该服务完全管理,并且不会造成任何停机。

维护通常分为以下类别:

  • Memorystore 功能。为了发布某些功能,Memorystore 需要进行维护更新。
  • 操作系统补丁。我们会持续监控操作系统中新发现的安全漏洞。发现漏洞后,我们会修补操作系统,以防范新风险。
  • 数据库补丁。维护可能包括 Valkey 更新,以提高实例的安全性、性能和可靠性。这超出了 OSS Valkey 提供的功能。

配置客户端应用

如需配置客户端应用,以便在维护期间实现最佳性能和可用性,请按以下步骤操作:

  1. 根据 Valkey 客户端最佳实践中的指南使用和配置第三方客户端,确保任何定期维护不会影响客户端应用。我们建议的客户端配置可以通过定期内嵌拓扑刷新和后台连接轮替来避免连接重置。
  2. 使用一系列更新操作(例如缩减或扩容或副本数量更改)测试客户端应用,同时在主节点和副本节点上运行代表性工作负载,并监控对客户端的影响。这些更新会测试客户端上的内嵌拓扑更新逻辑、完整同步影响、新节点发现和现有节点移除功能。测试有助于确保第三方客户端配置正确,以免对您的应用产生任何负面影响。

计划性维护

Memorystore for Valkey 利用渐进部署和先创建后销毁生命周期策略,以避免 Memorystore 定期维护对 Valkey 实例造成任何停机影响。Memorystore for Valkey 通过将 OSS Valkey 实例协议的请求重定向功能与以下 Memorystore 机制结合使用,实现了零停机维护:

  1. 协调的故障切换,不会丢失任何数据。
  2. 优雅地移除节点,以便客户端能够及时跟上节点拓扑更新,而不会对可用性造成任何影响。
  3. 实例的 Private Service Connect 端点,不会受到维护的影响。如需详细了解这些端点,请参阅实例端点

以下部分介绍的服务行为仅适用于定期维护。如需详细了解硬件故障等非预期事件的影响,请参阅非预期故障转移期间的客户端行为

默认维护窗口

默认情况下,Memorystore 会根据实例的时区在以下窗口中更新实例:

  • 工作日时段(星期一至星期五):晚上 10 点至早上 6 点
  • 周末时段:星期五晚上 10 点至星期一早上 6 点

逐步部署策略

Memorystore for Valkey 会以逐步扩大的范围执行部署,并且部署速度足以让您尽早检测到故障,从而尽可能减少影响并建立稳定性信心。在服务级别,系统会在 Memorystore 实例集群中集成烘烤时间(在系统应用更新并对其进行监控,然后将其视为成功并继续操作所用的时间)。此外,系统会在区域内各个可用区(多个故障域)中的实例中集成烘烤时间,以缩小影响范围(如果有)。

对于配置为高可用性的实例,Memorystore for Valkey 最多会在任何时候更新一个故障域或可用区,以确保实例分片(包括主副本和副本)在整个更新过程中都具有高可用性。此外,Memorystore for Valkey 每次只会更新几个节点。更新使用“先创建后销毁”生命周期机制,以最大限度地提高实例的稳定性。在更新包含多个分片的实例时,此策略可带来最大优势。仅将更新应用于总用户键空间的一小部分,可最大限度地提高数据可用性。

先创建后销毁生命周期策略

Valkey 实例包含多个分片。每个分片都有一个主节点和零个或多个副本节点。Memorystore 会使用以下流程更新分片中的任何现有主 Valkey 节点或副本 Valkey 节点:

  1. Memorystore for Valkey 会向分片添加一个包含最新软件更新的新副本。Memorystore 会创建新节点,而不是更新现有节点,以确保在发生意外引导失败时保留预配的容量。
  2. 如果要更新的分片中的节点是主节点,则系统会先将主节点转换为副本节点,然后再使用协调的故障切换移除该节点。
  3. Memorystore 会移除使用旧版软件的副本。
  4. Memorystore 会针对实例中的每个节点重复此过程。

与就地更新的典型滚动部署相比,先创建后销毁策略有助于保留实例的预配容量,但会导致客户端应用出现服务中断(有时会导致数据丢失)。对于没有副本的分片,Memorystore for Valkey 仍会先预配新的副本,协调故障切换,最后替换分片的现有主节点。

第 1 步:添加副本

“先创建后销毁”机制的第一步是使用完整同步 OSS Valkey 机制添加一个安装了最新软件的副本节点,以便将数据从主节点复制到副本节点。为此,需要分叉子进程并利用无磁盘复制来引导副本。

您可以通过预配更多分片来减少节点内的键空间大小,从而充分利用实例的水平扩缩架构。每个节点的数据集较小有助于减少完整同步操作对分叉延迟时间的影响。它还可以加快在节点之间复制数据的速度。

第 2 步:运行协调的主服务器故障切换

如果需要更新的 Valkey 节点是主节点,Memorystore 会协调故障切换到新添加的副本节点。然后,Memorystore 会移除该节点。在协调故障转移期间,客户端和 Valkey 节点会协同工作,并使用以下策略来避免应用出现停机:

  1. 主节点会暂时屏蔽传入的客户端请求,以便确保现有副本与主节点完全同步。
  2. 副本完成选举流程,接管主副本角色。
  3. 先前的主节点(现在是副本节点)会使用 OSS Valkey 实例协议取消屏蔽现有请求,并将请求重定向到新的主节点。发送到旧副本节点的所有新请求都将继续重定向到新的主节点。
  4. 与 Valkey 兼容的客户端会刷新其内存中拓扑。它会学习新主端点的地址,而不再需要重定向。

协调的故障切换通常需要数十毫秒。不过,待刷写到副本的传输中的数据以及实例总大小可能会增加故障转移延迟时间。实例大小可能会影响主节点之间的收敛,进而影响选举新主节点的决策。

第 3 步:移除副本

“先创建后销毁”机制的最后一步是移除旧版软件上的副本节点。由于客户端会缓存端点信息和实例拓扑,因此突然移除节点会对客户端应用产生影响。Memorystore for Valkey 设计了一种 Valkey 副本的正常移除方式,以便客户端应用在节点强制关闭之前刷新其拓扑。我们对拓扑进行了自定义,以便客户了解新副本,但也提前忘记要移除的副本。

运行旧版软件的副本节点会保留一段时间(通常为几分钟),在此期间,它会开始将传入的读取请求重定向到其分片的主节点。它可让第三方客户端刷新节点拓扑并了解新的副本端点。如果客户端在耗尽期过后尝试访问已移除的节点,则该尝试会失败。这会在连接的客户端上触发节点拓扑刷新,以便客户端了解副本更改。重新刷新节点拓扑后,系统不会看到要移除的副本节点。

维护设置

借助 Memorystore for Valkey,您可以自定义维护时间表,以满足应用的需求并最大限度地减少中断。如需自定义维护时间表,请为您的实例配置维护期。

您可以为每个 Memorystore for Valkey 实例设置维护期,并可以使用以下配置选项:

  • 星期几:维护日期
  • 开始小时:维护开始的时刻

维护窗口持续一小时。在某些情况下,维护时间可能会超出您选择的时间范围。

为实例配置维护窗口后,Memorystore for Valkey 会根据您为维护窗口设置的偏好设置,安排日后进行自动维护。

默认维护窗口

如果您未设置维护窗口,则 Memorystore for Valkey 会根据实例的时区在以下某个窗口中更新实例:

  • 工作日时段(星期一至星期五):晚上 10:00 至早上 6:00
  • 周末时段:星期五晚上 10:00 至星期一早上 6:00

维护示例

作为零售商的购物车服务开发者,您负责监督包含 Memorystore for Valkey 实例的生产环境。为确保在维护期间获得最佳性能,请在实例流量最少时安排维护。这通常发生在星期日午夜左右。

在这种情况下,请将生产实例的维护期设置为以下日期和时间:

  • 周几:星期日
  • 开始小时:凌晨 1 点

即将进行的维护通知

为确保您及时了解实例的维护事件,请在安排维护前至少一周设置有关即将进行的维护的电子邮件通知。这些通知的主题行为 "Upcoming maintenance for your Cloud Memorystore instance [your-instance-name]"

Memorystore for Valkey 还会在实例开始维护时发送通知。电子邮件的主题行为 "Maintenance is undergoing for your Cloud Memorystore instance [your-instance-name]"

Memorystore for Valkey 完成维护后,会发送完成通知。电子邮件的主题行为 "Completed Maintenance for your Cloud Memorystore instance [your-instance-name]"

如果 Memorystore for Valkey 重新安排维护,您会收到一封电子邮件,告知您维护已取消。这封电子邮件的主题行是 "Canceled maintenance for your Cloud Memorystore instance [your-instance-name]"

如需接收维护通知,您必须选择接收。如需注册接收维护通知,请执行以下操作:

  1. 设置维护窗口
  2. 选择接收维护通知

如需接收 Memorystore for Valkey 发送的维护通知,请在实例的定期维护更新安排前至少一周完成以下步骤。否则,Memorystore for Valkey 将没有足够的时间通知您即将进行维护。

Memorystore for Valkey 会向与您的 Google 账号关联的电子邮件地址发送通知。您无法配置自定义电子邮件别名(例如团队电子邮件别名)。此外,我们不支持向其他电子邮件地址发送通知。

订阅维护通知后,您会收到有关 Google Cloud 项目中安排了维护工作的所有 Memorystore for Valkey 实例的提醒。对于每个实例,您都会收到一份单独的通知。

如需详细了解如何查找计划性维护,请参阅查找计划性维护

重新安排维护时间

本部分提供了有关如何重新安排维护时间的指南。例如,如果新服务安排在当前维护窗口期间发布,则您可能需要将维护窗口推迟到发布后几天。

您可以在最初安排的时间后的 14 天内重新安排维护。 在重新安排维护时间时,请选择以下选项之一:

  • 立即更新:您可以立即将更新应用于实例,而不必等待安排的维护窗口
  • 自定义日期和时间:选择原定安排的维护时间后的 两周内的任意时间

重新安排维护时,需要遵循以下限制:

  • 如果当前时间距离目前安排的维护时间不到一个小时,则无法重新安排维护。
  • 成功重新安排维护后,Memorystore for Valkey 会向您发送一封电子邮件通知,确认之前的维护已取消。此外,您会收到包含更新时间表的新维护通知。

如需详细了解如何重新安排维护,请参阅重新安排维护

常见问题解答

本部分包含有关 Memorystore for Valkey 维护的常见问题解答 (FAQ)。

如何知道实例的计划维护时间?

如需了解何时为您的实例安排维护,我们建议您订阅通知并配置维护窗口。您还可以手动检查实例,看看响应中是否显示了 maintenanceSchedule 参数。

Memorystore for Valkey 何时会通知您即将进行维护?

如果您订阅了维护通知并设置了维护期,则 Memorystore for Valkey 会至少在维护事件发生前一周通过电子邮件通知您。

您可以将维护推迟多长时间?

为实例安排维护后,您可以立即开始更新实例,也可以将更新从最初安排的维护日期和时间开始推迟最多两周。

例如,如果您将维护安排在 10 月 11 日晚上 11 点 15 分,则可以推迟到 10 月 25 日晚上 11 点 15 分。如果您不执行任何操作,则维护将在所安排的日期和时间运行。

如需了解详情,请参阅重新安排维护

哪些最佳实践有助于获得流畅的维护更新体验?

为确保获得流畅的维护更新体验,我们建议您执行以下操作:

  1. 按照说明配置您的客户端应用
  2. 将维护窗口设置为实例流量最少的日期和时间(例如星期日零点)。
  3. 选择接收维护通知。因此,Memorystore for Valkey 会在为您的实例安排维护更新前至少七天通过电子邮件通知您。
  4. 如果您的应用使用没有低影响或无影响的时段,请使用服务默认的逐步发布。此默认设置包含维护更新方面的最佳实践。如需了解详情,请参阅计划性维护

何时可以立即进行维护?

您可以立即在测试实例上应用维护更新,以了解更新对应用的影响。您可以观察此更新的影响。 如果更新出现问题,您可以推迟生产环境实例的维护,直到问题得到解决。

如果当前日期和时间适合您的实例,并且您预计实例日后会出现高负载,则可以立即运行维护更新。

维护更新是否始终在维护期内完成?

Memorystore for Valkey 会在您指定的维护期内启动维护更新。Memorystore for Valkey 通常会在维护期内完成更新,但并不总是如此。

您可以先停止对某些实例进行维护或安排维护吗?

您无法选择停用维护,也无法控制实例的维护顺序。不过,在收到初始维护通知后,您可以重新安排维护,使其最多推迟两周。

后续步骤

  • 查看管理实例维护窗口所需的权限