监控 Google Cloud Service Health 突发事件

为了让您随时了解 Google Cloud 产品的运行状况和状态,Google Cloud Service Health 会向您提供有关符合特定条件的持续性大规模突发事件的信息。此类信息可能包括产品中断、服务中断或有关临时性问题的信息性消息。

Google Cloud Service Health 旨在应对 Personalized Service Health 本身不可用或受到中断影响,或者受影响的产品尚未加入 Personalized Service Health 的罕见情况。

Personalized Service Health 可提供您组织中受支持 Google Cloud 产品和位置的个性化视图。遇到服务中断时,请优先使用 Personalized Service Health,并查看可能影响您的项目的当前和过去的Google Cloud 突发事件的相关通知。Personalized Service Health 始终会向Google Cloud 客户提供最多的信息。您可以通过 Google Cloud 控制台、配置提醒以及 Personalized Service Health API 访问 Personalized Service Health。

本文档重点介绍 Google Cloud Service Health。

访问 Google Cloud Service Health

您可以通过以下方式访问 Google Cloud Service Health:

  • 公开状态信息中心:Google Cloud Service Health
  • 公开的 RSS Feed
  • Google Cloud 控制台:

    1. 在 Google Cloud 控制台中,前往支持 > 支持请求页面。

      前往“支持请求”

    2. 使用控制台工具栏上的资源选择器,选择要列出已知问题的资源。

    3. 点击已知问题标签页。

      已知问题还包括较小的突发事件和有限范围的突发事件。您可以将支持请求与已知问题相关联,以便定期获取更新并与支持人员沟通。 支持请求适用于不符合突发事件要求或需要直接互动的问题。如果您享有高级支持服务、增强型支持服务或标准支持服务,则可以通过创建支持请求来报告突发事件。

如果您无法通过上述资源访问 Google Cloud Service Health,可以使用Google Cloud Platform 支持问题表单

支持的 Google Cloud Service Health 突发事件

对于大多数 Google Cloud 突发事件,受影响的客户会直接在 Google Cloud 控制台中通过 Personalized Service Health 接收突发事件通知。如果这些突发事件符合提醒条件,还会触发您已配置的所有 Service Health 提醒

符合以下任一条件的突发事件会显示在 Google CloudService Health 中:

  • 重大的公开突发事件
  • 在无法使用 Personalized Service Health 信息中心时发生的突发事件

重大突发事件

Google Cloud 将突发事件定义为重大突发事件的前提是该突发事件满足以下所有条件:

  • 影响范围广:突发事件对全球产生影响,或对多个区域的大量客户项目产生影响。
  • 严重程度高:一个或多个产品无法使用或严重降级。

在极少数情况下,如果发生重大突发事件,我们会紧急采取行动来解决任何问题。

在重大突发事件期间,系统会通过 Google Cloud Service Health 信息中心传达问题状态。重大突发事件会在信息中心内标记为 服务中断。问题解决后,我们会发布公开的突发事件报告,其中包含导致突发事件的因素的详细信息,以及我们为防止此类突发事件再次发生而计划采取的措施。

对于范围较小的突发事件,我们可能会向客户提供非公开报告。

突发事件的生命周期

检测到产品降级时, Google Cloud 支持团队和产品工程团队会协同解决突发事件并向您提供最新动态。

下图显示了产品工程和支持团队的职责:

生命周期图

您可以在以下部分中详细了解这些责任。

检测

Google Cloud 使用内部和综合监控来检测突发事件。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

初步回应

检测到突发事件时, Google Cloud Customer Care 团队会管理与客户的沟通。突发事件的初始通知通常很短,一般只提及有问题的产品。这是因为我们优先考虑快速通知,而不是细节。具体细节可以在后续更新中提供。

为了向您提供尽可能多的信息,并且不让您忙于应付对您没有影响的问题,应根据问题的范围和严重程度使用不同的沟通渠道:

沟通图

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由网站可靠性工程师完成,但可能由软件工程师或其他人来完成,这取决于具体情况和产品。如需了解详情,请参阅《网站可靠性工程》一书的第 12 章

缓解和修正

仅当 Google 确信所做更改将永远结束影响时,才会认为问题“已解决”。例如,这种解决操作可能会回滚触发过突发事件的更改。

当突发事件正在进行时,Customer Care 和产品团队会尝试“缓解”此问题。缓解是指可以减少问题的影响或范围,例如通过临时为过载的产品提供其他资源。

如果没有找到缓解措施,则 Customer Care 团队会尽可能找到解决方法并解决。解决方法是您在解决突发事件发生后的潜在需求时可以采取的步骤。解决方法可能对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟进

当突发事件正在进行时,Customer Care 团队会定期提供更新。更新通常会提供:

  • 有关突发事件的更多信息,例如错误消息、受影响的地区或区域,受影响的功能或影响百分比。

  • 缓解问题的进展,包括任何解决方法。

  • 根据突发事件量身定制的沟通时间表。

  • 状态变化,例如突发事件已解决。

回顾

Google 会针对所有突发事件在内部执行事后分析,以便全面了解突发事件,并确定 Google 可作出的可靠性改进。然后跟踪和实施这些改进。如需了解详情,请参阅《站点可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件的症状、影响、根本原因、补救措施以及未来的预防。对于回顾,我们特别注意我们所采取的了解问题和提高可靠性的步骤。Google 在撰写和发布回顾时秉承透明的原则,这体现了我们致力于为客户构建稳定产品的承诺。

突发事件数据模型

某起突发事件可能会影响一个或多个位置中的一款或多款产品。突发事件具有开始时间和结束时间,以及总体严重程度。突发事件有更新,用于说明突发事件随时间的变化情况,包括其状态和当时受影响的位置。突发事件信息通过 JSON 架构提供。

JSON 架构中包含标记为稳定不稳定的字段。一般而言,ID 字段被视为稳定,而显示名称等字段被视为不稳定,可能会在没有警告的情况下发生更改。仅在与外部系统集成或构建自动化操作时使用稳定字段。如需了解详情,请参阅本文档中的“我可以构建集成来以编程方式使用 Google Cloud Service Health 数据吗?”部分。

常见问题解答

在监控 Google Cloud 产品的运行状况和状态时,以下常见问题解答可能会对您有所帮助。

在哪里可以找到以前的产品故障和服务中断的相关信息?

Google Cloud Service Health 会将Google Cloud 产品中断和服务中断情况记录下来,并保留最长五年。信息中心会按语言区域显示产品的当前状态。如需查看过去一年中与产品中断和服务中断相关的信息,请点击 查看突发事件历史记录。如需查看某个产品在过去五年内的服务中断历史记录,请针对该产品点击 查看详情

如何查看 Google Cloud 产品的区域化状态信息?

Google Cloud Service Health 会显示所有 Google Cloud产品的状态,并按区域和全球语言区域进行整理。如需查看多区域位置的状态,请选择特定于区域的标签页。

我可以构建集成来以程序化方式使用 Google Cloud Service Health 数据吗?

可以,您可以通过以下方式使用 Google Cloud Service Health 显示的数据:

RSS Feed 和 JSON 历史记录文件提供突发事件状态信息,可通过集成使用这些信息。

请使用 JSON 历史记录文件中标记为稳定的字段,而不是标记为不稳定的字段。例如,如果您尝试以编程方式识别影响特定产品组的突发事件,请使用产品 ID (affected_products>id),而不是其显示名称。

产品 ID 与产品名称

过去, Google Cloud Service Health 没有提供用于查找给定产品的 ID 的机制。自 2023 年初以来, Google CloudService Health 提供了一个产品目录,为所有产品提供了此映射。产品 ID 提供了一个稳定的字段,可用于关联产品,同时允许产品的显示名称发生变化。在以程序化方式识别影响一组产品的突发事件时,应引用产品 ID。

如果我有基于之前的 Google Cloud Service Health 实现的集成,该怎么办?

在 RSS Feed 和 JSON 文件中,区域状态信息是对区域化状态报告引入和Google Cloud Service Health 名称变更之前已发布信息的补充。因此,我们预计您现有的集成将继续正常运行。但是,如果您想通过集成使用区域状态信息,则需要对其进行修改。

下面详细介绍了区域信息在 RSS Feed 和 JSON 文件中是如何呈现的:

  • RSS Feed

    区域状态信息是区域化状态引入之前提供的 Feed 信息的新补充。所有被报告为受影响的位置都会附加到 RSS 消息中。

  • JSON 文件

    在发布区域状态更新之前, Google Cloud 发布了一系列突发事件,其中每起突发事件都包含受影响产品的列表,以及每起突发事件的状态更新列表(如果有)。这些状态更新包含一个非结构化字符串字段,该字段包含或不包含位置信息。

    现在, Google Cloud 会像以前一样发布一系列突发事件。 不过,对于每起突发事件,每个状态更新都包含以下新字段:

    • updates.affected_locations:包含发布更新时受影响的位置的结构化列表。每个更新记录和 most_recent_update 记录都包含此字段。
    • currently_affected_locations:包含有关突发事件积极影响的位置的最新信息。与 updates.affected_locations 不同,此列表在突发事件解决后(即 end 设置为非空值时)会变为空。
    • previously_affected_locations:包含之前在突发事件中受到影响但目前未受影响的位置的列表。随着突发事件的进展,某些位置可能会解决服务中断问题。这些位置仍会存在于 previously_affected_locations field 中。突发事件解决后(即 end 设置为非空值时),此字段将包含在此突发事件期间受影响的所有位置的列表。

如果我遇到了问题,但 Google Cloud Service Health 未列出这个问题,该怎么办?

Google Cloud Service Health 会针对影响 Google Cloud 产品和服务的任何重大突发事件提供当前和历史状态信息。如果您遇到的问题未在Google Cloud Service Health 中列出,则可能是只有您的项目或实例遇到了这个问题,或者这个问题影响的客户数量很有限。范围较小的突发事件可能会在支持门户中列出。如果您遇到了 Google Cloud Service Health 未列出的问题,可以与 Customer Care 团队联系。

如果您已在使用 Personalized Service Health,请检查是否有问题列出,以确定您的项目或实例是否受到影响。

如果您使用的是 Google Cloud 控制台,请在顶部工具栏中选择 > 发送反馈

谁负责更新 Google Cloud Service Health?

全球 Customer Care 团队使用许多不同类型的信号来监控产品状态,如果发生广泛性问题,该团队将更新 Google Cloud Service Health。如果需要,他们将在突发事件解决后发布详细的突发事件分析报告。

后续步骤