为容量高峰事件做好准备


本指南介绍了如何为容量高峰事件和高流量做好准备,以便您能够以最短的停机时间(甚至无需停机)提供服务,同时不会降低性能或用户体验。

在云端管理事件时,有三个关键阶段:

  1. 准备:完成活动准备活动和任务,包括架构审核、容量规划和创建预订。
  2. 执行:在活动开始时,密切监控活动并相应地做出响应。
  3. 分析:活动结束后,分析哪些方面做得好、哪些方面做得不好,以及如何改进未来的活动。

本指南重点介绍准备阶段。

核对清单

通过完成以下任务,了解如何为容量高峰事件做好准备:


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

根据您购买的 Customer Care 支持套餐,请务必了解您可以获得的事件准备服务:

  • 增强型支持:您可以使用为策划事件提供支持这项增值服务,优化事件、发布和迁移的准备工作。该服务可帮助您的组织度过长达 5 天的高流量短期数字事件的关键阶段,例如大型开幕式、新产品发布或数据迁移。

  • 高级支持:您可以使用事件管理服务来处理计划峰值事件,例如产品发布或重大销售活动。使用此服务时,客户服务团队与您一起制定计划,并在整个活动过程中提供指导,还会在以下方面为您提供支持:

    • 让系统为关键时刻和密集型工作负载做好准备
    • 运行灾难测试,主动解决潜在问题
    • 开发并实现更迅速的解决途径,以减少任何可能发生的影响

    活动结束后,您的技术支持客户经理 (TAM) 将与您一起查看结果并针对将来的活动提供建议。如需开始使用或了解详情,请与您的 TAM 联系。

了解事件管理最佳实践

您应了解并遵循特定的事件管理最佳实践:

  1. 详细说明您的事件规划流程:在容量高峰事件的准备阶段,您应与您的客户支持团队或 TAM 联系,以便他们帮助您审核架构、创建图表、时间表和发布核对清单、根据预期的流量情况检查服务配额,并确定对您的项目的总体影响。

  2. 在执行期间进行监控和响应:在高峰期或发布事件开始时,您需要密切监控活动并根据需要进行响应。如果发生任何问题,明确定义的事件管理和上报流程是减少处理和解决问题所耗费精力和时间的关键。

  3. 查看并记录分析:当高峰期或发布事件结束后,需查看并分析相应事件,并记录所学经验教训,以便您在下一个重大事件中加以运用。

如需了解详情,请参阅事件管理最佳实践

为您的事件请求并确保获得适当的容量

准备阶段的一个关键组成部分是容量规划,您需要在此阶段确定所需的云资源量,以确保您的工作负载拥有有效运行所需的资源。在为高流量活动或旺季做准备时,请确保配额与资源要求相符,以免发生意外故障。如需了解详情,请参阅为您的活动预订足够的容量

使用容量规划工具

借助容量规划工具,您可以查看虚拟机 (VM) 实例、永久性磁盘卷和 GPU 的历史使用情况和预测使用情况。您还可以查看预留情况、提前预留资源、管理项目的配额限制,以及设置自动配额增加请求。如需了解详情,请参阅在容量规划工具中查看使用情况和预测数据

  1. 在 Google Cloud 控制台中,前往容量规划工具页面。

    前往“容量规划工具”

  2. 使用控制台工具栏上的资源选择器选择项目、文件夹或组织。

  3. 选择您要查看其使用情况数据的 Compute Engine 资源类型:

    • 如需查看虚拟机的使用情况数据,请点击虚拟机标签页(如果尚未选择该标签页)。

    • 如需查看永久性磁盘卷的使用情况数据,请点击磁盘标签页。

    • 如需查看 GPU 的使用情况数据,请点击 GPU 标签页。

  4. 您可以过滤元素,以便查看资源的使用情况和预测数据的不同数据可视化图表。

启用配额调整工具

配额调整工具会监控您的资源消耗情况并代表您主动提交配额调整请求,这样您就不必手动发出请求。如需了解详情,请参阅配额调整工具的工作原理

  1. 在 Google Cloud 控制台中,依次前往 IAM 和管理 > Quotas and system limits(配额和系统限制)页面。

    前往“配额和系统限制”页面

  2. 点击配置标签页。

  3. 如需启用配额调整工具,请点击启用切换开关,以切换到开启位置。

状态列显示已启用时,配额调整工具会监控您的资源用量,并在资源用量接近配额值时发出配额调整请求。

申请配额调整

如果您的配额不足以满足您的需求,您可以申请配额调整。如需了解详情,请参阅查看和管理配额

  1. 在 Google Cloud 控制台中,依次前往 IAM 和管理 > Quotas and system limits(配额和系统限制)页面。

    前往“配额和系统限制”页面

  2. 选中要更新的配额旁边的复选框。

    (可选)如需搜索配额,请使用 过滤条件

  3. 点击 修改,此时将显示配额更改窗格。

  4. 新值字段中,输入所需的配额值。某些配额值具有计量单位;如果适用,请在相邻列表中选择所需的单位。

  5. 如果您看到一条消息,指出您将通过请求大于覆盖值的配额来移除配额覆盖值,请选中相应复选框以继续,然后选择申请更高配额

  6. 请求说明字段中,输入说明,然后点击完成

  7. 点击下一步,然后提供您的详细联系信息。

  8. 点击提交请求

如果您的请求被拒,您可以尝试通过创建支持请求或与您的客户支持团队或 TAM 联系来申请增加配额。

创建预留

预留有助于确保您随时可以使用 Compute Engine 资源来创建具有相同硬件(内存和 vCPU)和可选资源(GPU 和本地 SSD 磁盘)的虚拟机。

按需预留会在您申请时预配(如果请求的容量可用)。未来预留可让您提前请求容量。我们建议您在活动前提前预订未来的空房。如需了解详情,请参阅 Compute Engine 可用区级资源的预留

创建单项目按需预留

  1. 在 Google Cloud 控制台中,转到预留页面。

    前往“预留”

  2. 按需预留标签页(默认)上,点击 创建预留

    此时会打开创建预留页面。

  3. 为预留输入名称

  4. 选择您要预留资源的区域可用区

  5. 对于共享类型,选择本地(如果尚未选择)。

  6. 如需允许 GPU 虚拟机的预留供 Vertex AI 中的自定义训练作业预测作业使用,请在 Google Cloud 服务部分中选择共享预留

  7. 选择搭配虚拟机实例使用选项:

    • 如需允许匹配的虚拟机自动使用此预留,请选择自动使用预留(如果尚未选择)。

    • 如需只有在创建通过名称明确指向此预留的匹配虚拟机时使用此预留的资源,请选择选择特定预留

  8. 输入您要预留的虚拟机实例数量

  9. 机器配置部分中,执行以下操作:

    1. 如需根据现有实例模板指定虚拟机的属性,请选择使用实例模板

    2. 指定实例模板。如果您选择区域级模板,则只能在该区域内预留资源。

  10. 如需在指定时间自动删除预留,请选中启用自动删除复选框。当您停止使用预留时,自动删除预留有助于避免产生不必要的费用。

  11. 要创建预留,请点击创建

    此时会打开预留页面。创建预订最多可能需要一分钟。

创建单项目未来预留

  1. 在 Google Cloud 控制台中,转到预留页面。

    转到“预留”

  2. 点击未来预留标签页。

  3. 点击 创建未来预留

    创建未来预留页面会打开。

  4. 名称部分,输入未来预留请求的名称。

  5. 前缀部分,输入名称前缀。此未来预留请求中每个自动创建预留的名称以此前缀开头。

  6. 区域可用区部分,选择要在其中预留资源的区域和可用区。

  7. 开始时间部分,输入预留期的开始时间。开始时间不能比您提交未来预留请求以供审核的日期和时间晚 1 年。为了在未来预留进入锁定时间之前有足够的时间视需要修改、取消或删除未来预留,请指定开始时间的建议值

  8. 结束时间部分,输入预留期的结束时间(至少 14 天)。在时长摘要部分中,您可以查看预留期时长。为了提高 Google Cloud在提交未来预留请求以供审核后对其进行批准的可能性,请务必指定预留期的推荐值

  9. 共享类型部分中,选择本地(如果尚未选择)。

  10. 对于所需总容量,输入您要为此未来预留请求中指定的期限、虚拟机配置和项目预留的虚拟机总数

  11. 机器配置部分中,执行以下操作:

    1. 选择使用实例模板

    2. 实例模板部分,选择所需的实例模板。如果您选择了区域级实例模板,则只能在该模板所在的区域内预留资源。

  12. 自动生成的预留自动删除部分,执行以下操作之一:

    • 如需使 Compute Engine 能够自动删除未来预留请求的自动创建预留,请执行以下操作:

      1. 点击启用自动删除切换开关,以切换到开启位置(如果尚未设置为开启)。

      2. 可选:对于自动删除时间,输入删除自动创建预留的日期和时间。该日期和时间必须晚于预留期的结束时间。如果您将此字段留空,则自动创建的预留将在预留期结束时间之后 2 小时内删除。

    • 否则,请点击启用自动删除切换开关,以切换到关闭位置。

  13. 如需完成未来预留请求草稿的创建,请点击保存草稿

此时会打开预留页面。创建未来预留请求最多可能需要一分钟才能完成。

为在事件期间快速解决问题做好准备

您对不同严重程度的事件的响应、分类和解决方式可能会显著影响事件期间的运营。请务必使用集中式事件管理系统,以便在整个事件生命周期内有效跟踪事件。

除了查看您的联系人并启用 Personalized Service Health 外,您还应执行以下操作:

  • 查看与 Customer Care 团队合作时的最佳实践
  • 制定沟通计划
  • 确保访问权限

如需了解详情,请参阅为在事件期间解决问题做好准备

查看您的联系人

许多 Google Cloud 产品/服务都会发送通知,以便与 Google Cloud 用户分享重要信息。默认情况下,这些通知将发送给具有某些 Identity and Access Management (IAM) 角色的成员。借助“重要联系人”,您可以提供自己的联系人列表,自行指定要向哪些人发送通知。如需了解详情,请参阅管理通知联系人

  1. 在 Google Cloud 控制台中,前往 IAM 和管理 > 重要联系人页面。

    前往“重要联系人”

  2. 确保您的项目、文件夹或组织的名称显示在控制台工具栏上的资源选择器中。资源选择器会显示您正在为哪个项目、文件夹或组织管理联系人。

  3. 要按类别列出联系人,请选择类别。要按字母顺序列出联系人,请选择联系人

启用 Personalized Service Health

借助 Personalized Service Health,您可以识别与您的项目相关的 Google Cloud 服务中断,以便高效地管理和应对它们。如需了解详情,请参阅 Personalized Service Health 概览

请确保您已在事件发生前启用 Service Health API,并且贵组织可以访问信息中心并配置提醒。如需了解详情,请参阅管理对 Personalized Service Health 的访问权限

  1. 在 Google Cloud 控制台的“项目选择器”页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  2. Enable the Service Health API.

    Enable the API

管理和优化云资源

管理和优化 Google Cloud工作负载使用的资源。这涉及根据实际用量和需求合理调整资源规模、使用自动扩缩功能进行动态资源分配,以及查看架构和安全建议。

除了查看 Active Assist 建议之外,您还应执行以下操作:

  • 查看 Google Cloud 最佳实践
  • 查看可伸缩性
  • 查看您的产品版本
  • 查看提醒和信息中心

如需了解详情,请参阅优化云资源

查看 Active Assist 建议

Active Assist 是指Google Cloud 中用于生成建议和数据分析的工具组合,可帮助您优化 Google Cloud 项目。如需了解详情,请参阅什么是 Active Assist

  1. 在 Google Cloud 控制台中,前往 Recommendation Hub

    前往 Recommendation Hub

  2. 使用控制台工具栏上的资源选择器,选择一个Google Cloud 项目、文件夹或组织。

    只有拥有组织或文件夹的权限,您才能查看组织或文件夹级层的建议,无论您对其中的文件夹或项目具有何种权限。

  3. 在导航窗格中,点击所有建议

    系统会显示您可以过滤、排序和分享的建议。您可以详细了解建议,查看受影响的资源,以及应用建议可能产生的影响。

  4. 如需详细了解某项建议,请在建议列中点击相应建议。

    系统会显示可能有助于您决定是应用还是忽略建议的相关数据。

  5. 如果您拥有相应权限,可以通过点击适用按钮来应用或忽略建议。

    请注意,某些建议可能无法直接应用。请按照控制台中详述的说明来应用它们。

安排并执行负载测试

负载测试可以确定您的系统在生产使用期间是否会成功扩缩,以及发现导致其无法扩缩的任何瓶颈。

  1. 在事件发生前 3 到 5 个月,您应对关键项目和工作负载执行负载测试,以模拟流量高峰。

  2. 调查负载测试的配额和费用影响,并考虑创建 Cloud Billing 预算提醒,以监控您将要施加最大压力的服务的费用。

  3. 在每次测试后,评估结果并使用容量规划工具直观呈现使用情况和预测数据,并根据需要请求增加配额。在本文档中,请参阅使用容量规划工具申请配额调整

如果您需要帮助,请联系您的客户支持团队或 TAM。他们可以帮助您捕获和规划架构更改,从而提高服务的整体可靠性和可用性。

安排并执行灾难恢复测试

如果您采用可靠且经过充分测试的灾难恢复 (DR) 策略,则可以最大程度地降低中断的影响,实现更快的恢复速度,并在出现问题时更快地恢复核心运营。

您的灾难恢复策略应包含详细的紧急响应要求、备份操作和恢复过程。

  1. 在事件发生前 1 到 3 个月,请务必运行灾难场景模拟,以确定灾难恢复计划和准备工作是否存在任何缺陷。

  2. 在每次测试后,请评估结果,确定是否需要进行架构更改。根据需要审核和优化资源。在本文档中,请参阅管理和优化云资源

您的客户支持团队或 TAM 可以帮助您进行 DR 测试,以及了解和改进突发事件响应流程。如需了解详情,请参阅灾难恢复规划指南

资源摘要

下表列出了本文档中提及的指南。

了解事件管理最佳实践
为您的事件请求并确保获得适当的容量
为在事件期间快速解决问题做好准备
管理和优化云资源
安排并执行负载测试
安排并执行灾难恢复测试

后续步骤