为容量高峰事件做好准备

本指南介绍了如何为容量高峰事件和高流量做好准备，以便您能够在尽可能减少或消除停机时间的情况下提供服务，并且不会降低性能或用户体验。

在云端管理事件时，有三个关键阶段：

准备：完成活动和任务以便为事件做好准备，包括架构审核、容量规划和创建预留。
执行：在事件开始时，密切监控事件并做出相应回应。
分析：事件完成后，分析哪些方面做得好，哪些方面做得不好，以及如何改进未来的事件。

本指南重点介绍准备阶段。

核对清单

通过完成以下任务，了解如何为容量高峰事件做好准备：

了解事件管理最佳实践
为您的事件请求并确保获得适当的容量
为在事件期间快速解决问题做好准备
管理和优化云资源
安排并执行负载测试
安排并执行灾难恢复测试

如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导，请点击操作演示：

操作演示

准备工作

根据您购买的 Customer Care 支持套餐，请确保您了解可用的事件就绪服务：

增强型支持服务：您可以使用计划内事件支持优化事件、发布和迁移的准备情况，计划内事件支持是一项增值服务，可帮助您度过高流量短期数字事件的关键阶段，例如大型开幕式、新产品发布或数据迁移。
高级支持服务：您可以使用事件管理服务来处理计划内高峰事件，例如产品发布或重大特惠活动。使用此服务时，Customer Care 团队会与您一起制定计划，在整个事件过程中提供指导，并在以下几个方面为您提供支持：
- 让系统为关键时刻和密集型工作负载做好准备
- 运行灾难测试，主动解决潜在问题
- 开发并实现更迅速的解决途径，以减少任何可能发生的影响
事件结束后，您的技术支持客户经理 (TAM) 将与您一起查看结果并针对将来的事件提供建议。如需开始使用或了解详情，请与您的 TAM 联系。

了解事件管理最佳实践

您应了解并遵循特定的事件管理最佳实践：

详细说明您的事件规划流程：在容量高峰事件的准备阶段，您应与您的客户支持团队或 TAM 联系，以便他们帮助您审核架构、创建图表、时间表和发布核对清单、根据预期的流量情况检查服务配额，并确定对您的项目的总体影响。
在执行期间进行监控和响应：在高峰期或发布事件开始时，您需要密切监控活动并根据需要进行响应。如果发生任何问题，明确定义的事件管理和上报流程是减少处理和解决问题所耗费精力和时间的关键。
查看并记录分析：当高峰期或发布事件结束后，需查看并分析相应事件，并记录所学经验教训，以便您在下一个重大事件中加以运用。

如需了解详情，请参阅事件管理最佳实践。

为您的事件请求并确保获得适当的容量

准备阶段的一个关键组成部分是容量规划，您需要在该规划中确定所需的云资源数量，以确保您的工作负载拥有有效运行所需的资源。在为高流量事件或高峰期做准备时，请确保配额与资源需求相符，以免遇到意外失败。如需了解详情，请参阅确保为事件获得适当的容量。

使用容量规划工具

借助容量规划工具，您可以查看虚拟机 (VM) 实例、永久性磁盘卷和 GPU 的历史使用情况和预测使用情况。您还可以查看预留、提前预留资源、管理项目的配额限制，以及设置自动配额增加请求。如需了解详情，请参阅在容量规划工具中查看使用情况和预测数据。

在 Google Cloud 控制台中，前往容量规划工具页面。

前往“容量规划工具”
使用控制台工具栏上的资源选择器，选择项目、文件夹或组织。
选择您要查看其使用情况数据的 Compute Engine 资源类型：
- 如需查看虚拟机的使用情况数据，请点击虚拟机标签页（如果尚未选择该标签页）。
- 如需查看永久性磁盘卷的使用情况数据，请点击磁盘标签页。
- 如需查看 GPU 的使用情况数据，请点击 GPU 标签页。
您可以过滤元素，以便查看资源的使用情况和预测数据的不同数据可视化图表。

启用配额调整工具

配额调整工具会监控您的资源消耗情况并代表您主动提交配额调整请求，这样您就不必手动提交请求。如需了解详情，请参阅配额调整工具的工作原理。

在 Google Cloud 控制台中，依次前往 IAM 和管理 > 配额和系统限制页面。

前往“Quotas and system limits”（配额和系统限制）页面
点击配置标签页。
如需启用配额调整工具，请点击启用切换开关，以切换到开启位置。

当状态列显示已启用时，配额调整工具会监控您的资源用量，并在资源用量接近配额值时发出配额调整请求。

申请配额调整

如果配额不足以满足您的需求，您可以申请调整配额。如需了解详情，请参阅查看和管理配额。

在 Google Cloud 控制台中，依次前往 IAM 和管理 > 配额和系统限制页面。

前往“Quotas and system limits”（配额和系统限制）页面
选中要更新的配额旁边的复选框。

（可选）如需搜索配额，请使用 过滤条件。
点击修改，此时会显示配额更改窗格。
在新值字段中，输入所需的配额值。某些配额值具有计量单位；如果适用，请在相邻列表中选择所需的单位。
如果您看到一条消息，指出您将通过请求大于覆盖值的配额来移除配额覆盖值，请选中相应复选框以继续，然后选择申请更高配额。
在请求说明字段中，输入说明，然后点击完成。
点击下一步，然后提供您的详细联系信息。
点击提交请求。

如果您的请求遭拒，您可以尝试创建支持请求，或者联系您的客户支持团队或 TAM，以申请提高配额。

创建预留

预留有助于确保您随时可以使用 Compute Engine 资源来创建具有相同硬件（内存和 vCPU）和可选资源（GPU 和本地固态硬盘）的虚拟机。

按需预留会在您申请时预配（如果请求的容量可用）。通过未来预留，您可以提前请求容量。我们建议您在事件发生之前尽早获取未来预留。如需了解详情，请参阅 Compute Engine 可用区级资源的预留。

创建单项目按需预留

在 Google Cloud 控制台中，前往预留页面。

转到“预留”
在按需预留标签页（默认）上，点击 创建预留。

此时会打开创建预留页面。
输入预留的名称。
选择您要预留资源的区域和可用区。
对于共享类型，选择本地（如果尚未选择）。
如需允许 GPU 虚拟机的预留供 Vertex AI 自定义训练作业或预测作业使用，请在 Google Cloud 服务部分中选择共享预留。
选择搭配虚拟机实例使用选项：
- 如需允许匹配的虚拟机自动使用此预留，请选择自动使用预留（如果尚未选择）。
- 如需只有在创建通过名称明确指向此预留的匹配虚拟机时使用此预留的资源，请选择选择特定预留。
  
  注意：如果您的实例模板指定了 A3 机器类型或紧凑布置政策，则必须选择选择特定预留。否则，您会遇到错误。
输入您要预留的虚拟机实例数量。
在机器配置部分中，执行以下操作：
1. 如需根据现有实例模板指定虚拟机的属性，请选择使用实例模板。
2. 指定实例模板。如果您选择区域级模板，则只能在该区域内预留资源。
如需在指定时间自动删除预留，请选中启用自动删除复选框。当您停止使用预留时，自动删除预留有助于避免产生不必要的费用。
要创建预留，请点击创建。

此时会打开预留页面。创建预留最多可能需要一分钟。

创建单项目未来预留

在 Google Cloud 控制台中，前往预留页面。

转到“预留”
点击未来预留标签页。
点击 创建未来预留。

创建未来预留页面会打开。
在名称部分，输入未来预留请求的名称。
在前缀部分，输入名称前缀。此未来预留请求中每个自动创建预留的名称以此前缀开头。
在区域和可用区部分，选择要在其中预留资源的区域和可用区。
在开始时间部分，输入预留期的开始时间。开始时间不能比您提交未来预留请求以供审核的日期和时间晚 1 年。为了在未来预留进入锁定时间之前有足够的时间视需要修改、取消或删除未来预留，请指定开始时间的建议值。
在结束时间部分，输入预留期（至少 14 天）的结束时间。在时长摘要部分中，您可以查看预留期时长。为了提高 Google Cloud在提交未来预留请求以供审核后对其进行批准的可能性，请确保指定预留期的推荐值。
在共享类型部分中，选择本地（如果尚未选择）。
对于所需总容量，输入您要为此未来预留请求中指定的期限、虚拟机配置和项目预留的虚拟机总数。

重要提示：请确保您有足够的配额用于您要请求预留的资源。否则，如果您提交未来预留请求进行审核，则 Google Cloud 会拒绝该请求。
在机器配置部分中，执行以下操作：
1. 选择使用实例模板。
2. 在实例模板部分，选择所需的实例模板。如果您选择了区域级实例模板，则只能在该模板所在的区域内预留资源。
在自动生成的预留自动删除部分，执行以下操作之一：
- 如需使 Compute Engine 能够自动删除未来预留请求的自动创建预留，请执行以下操作：
  
  注意：如果启用了自动删除选项，则所有自动创建的预留都会在指定的删除时间删除，无论它们是否已被充分使用。
  1. 点击启用自动删除切换开关，以切换到开启位置（如果尚未设置为开启）。
  2. 可选：对于自动删除时间，输入删除自动创建预留的日期和时间。该日期和时间必须晚于预留期的结束时间。如果您将此字段留空，则自动创建的预留将在预留期结束时间之后 2 小时内删除。
- 否则，请点击启用自动删除切换开关，以切换到关闭位置。
如需完成未来预留请求草稿的创建，请点击保存草稿。

此时会打开预留页面。创建未来预留请求最多可能需要一分钟才能完成。

为在事件期间快速解决问题做好准备

您对不同严重程度的事件的响应、分类和解决方式可能会显著影响事件期间的运营。请务必使用集中式事件管理系统，以便在整个事件生命周期内有效跟踪事件。

除了查看您的联系人并启用 Personalized Service Health 外，您还应执行以下操作：

查看与 Customer Care 团队合作时的最佳实践
制定沟通计划
确保访问权限

如需了解详情，请参阅为在事件期间解决问题做好准备。

查看您的联系人

许多 Google Cloud 产品都会发送通知，以便与 Google Cloud 用户分享重要信息。默认情况下，这些通知将发送给具有某些 Identity and Access Management (IAM) 角色的成员。借助“重要联系人”，您可以提供自己的联系人列表，自行指定要向哪些人发送通知。如需了解详情，请参阅管理通知联系人。

在 Google Cloud 控制台中，前往 IAM 和管理 > 重要联系人页面。

进入“重要联系人”
确保您的项目、文件夹或组织的名称显示在控制台工具栏上的资源选择器中。资源选择器会显示您正在为哪个项目、文件夹或组织管理联系人。
要按类别列出联系人，请选择类别。要按字母顺序列出联系人，请选择联系人。

注意：当您查看组织或文件夹的联系人时，不会看到其子资源的联系人。如果您查看子资源（文件夹或项目）的联系人，并且该资源从其祖先实体（组织或其他文件夹）继承联系人，您将看到您有权查看联系人的任何祖先实体的继承联系人。

启用 Personalized Service Health

借助 Personalized Service Health，您可以识别与您的项目相关的 Google Cloud 服务中断，以便可以高效地管理和应对它们。如需了解详情，请参阅 Personalized Service Health 概览。

请确保您已在事件发生前启用 Service Health API，并且您的组织可以访问信息中心并配置提醒。如需了解详情，请参阅管理 Personalized Service Health 访问权限。

在 Google Cloud 控制台的项目选择器页面上，选择或创建 Google Cloud 项目。

转到“项目选择器”
Enable the Service Health API.
Enable the API

管理和优化云资源

管理和优化 Google Cloud工作负载使用的资源。这涉及根据实际用量和需求合理调整资源规模、使用自动扩缩功能进行动态资源分配，以及查看架构和安全建议。

除了查看 Active Assist 建议之外，您还应执行以下操作：

查看 Google Cloud 最佳实践
查看可伸缩性
查看您的产品版本
查看提醒和信息中心

如需了解详情，请参阅优化云资源。

查看 Active Assist 建议

Active Assist 是指Google Cloud 中用于生成建议和分析洞见的工具组合，可帮助您优化 Google Cloud 项目。如需了解详情，请参阅什么是 Active Assist。

在 Google Cloud 控制台中，前往 Recommendation Hub。

转到 Recommendation Hub
使用控制台工具栏上的资源选择器，选择Google Cloud 项目、文件夹或组织。

只有拥有组织或文件夹的权限，您才能查看组织或文件夹级层的建议，无论您对其中的文件夹或项目具有何种权限。
在导航窗格中，点击所有建议。

系统会显示您可以过滤、排序和共享的建议。您可以详细了解建议，查看受影响的资源，以及应用建议可能产生的影响。
如需详细了解某项建议，请在建议列中点击相应建议。

系统会显示相关数据，以帮助您决定是应用还是忽略建议。
如果您拥有相应权限，可以通过点击适用按钮来应用或忽略建议。

请注意，某些建议可能无法直接应用。请按照控制台中的详细说明来应用它们。

安排并执行负载测试

负载测试可以确定您的系统在生产使用期间是否会成功扩缩，以及发现导致其无法扩缩的任何瓶颈。

在事件发生前 3 到 5 个月，您应对关键项目和工作负载执行负载测试，以模拟流量高峰。
调查负载测试的配额和费用影响，并考虑创建 Cloud Billing 预算提醒，以监控您将要施加最大压力的服务的费用。
在每次测试后，评估结果并使用容量规划工具直观呈现使用情况和预测数据，并根据需要请求增加配额。在本文档中，请参阅使用容量规划工具和申请配额调整。

如果您需要帮助，请联系您的客户支持团队或 TAM。他们可以帮助您捕获和规划架构更改，从而提高服务的整体可靠性和可用性。

安排并执行灾难恢复测试

如果您采用可靠且经过充分测试的灾难恢复 (DR) 策略，则可以最大程度地降低中断的影响，实现更快的恢复速度，并在出现问题时更快地恢复核心运营。

您的灾难恢复策略应包含详细的紧急响应要求、备份操作和恢复过程。

在事件发生前 1 到 3 个月，请务必运行灾难场景模拟，以确定灾难恢复计划和准备工作是否存在任何缺陷。
在每次测试后，请评估结果，确定是否需要进行架构更改。根据需要审核和优化资源。请参阅本文档中的管理和优化云资源。

您的客户支持团队或 TAM 可以帮助您进行灾难恢复测试，以及如何了解和改进突发事件响应流程。如需了解详情，请参阅灾难恢复规划指南。

资源摘要

下表列出了本文档中提及的指南。

了解事件管理最佳实践
事件管理最佳实践
为您的事件请求并确保获得适当的容量
未来预留请求简介创建和管理支持请求实例模板配额调整工具 Compute Engine 可用区级资源的预留为您的事件确保容量将预留与预测搭配使用将预留与训练搭配使用查看和管理配额在容量规划工具中查看使用情况和预测数据
为在事件期间快速解决问题做好准备
管理 Personalized Service Health 访问权限管理通知联系人 Personalized Service Health 概览为在事件期间解决问题做好准备
管理和优化云资源
优化云资源什么是 Active Assist
安排并执行负载测试
创建、修改或删除预算和预算提醒
安排并执行灾难恢复测试
灾难恢复规划指南