Vorfälle im Zusammenhang mit dem Dienststatus von Google Cloud im Blick behalten

Damit Sie über den Zustand und den Status Ihrer Google Cloud Produkte informiert bleiben, werden auf der SeiteGoogle Cloud Dienstbereitschaft Informationen zu anhaltenden, weit verbreiteten Vorfällen angezeigt, die bestimmte Kriterien erfüllen. Dabei kann es sich um Produktunterbrechungen oder Informationen über vorübergehende Probleme handeln.

Google Cloud Service Health ist für den seltenen Fall gedacht, dass Personalized Service Health selbst nicht verfügbar ist oder von einer Störung betroffen ist oder das betroffene Produkt noch nicht in Personalized Service Health aufgenommen wurde.

Personalized Service Health bietet eine personalisierte Übersicht über unterstützte Google Cloud Produkte und Standorte in Ihrer Organisation. Rufen Sie bei einer Dienstunterbrechung zuerst Personalized Service Health auf und sehen Sie nach, ob es Informationen zu aktiven und vergangenenGoogle Cloud -Vorfällen gibt, die sich auf Ihre Projekte auswirken könnten. Im personalisierten Dienststatus sind immer die meisten Informationen fürGoogle Cloud -Kunden verfügbar. Sie können über die Google Cloud Console, durch Konfigurieren von Benachrichtigungen und über die Personalized Service Health API auf den Dienststatus zugreifen.

In diesem Dokument geht es um die Google Cloud Dienstbereitschaft.

Rufen Sie Google Cloud Service Health auf.

Sie haben folgende Möglichkeiten, auf den Dienststatus zuzugreifen: Google Cloud

  • Ein öffentliches Status-Dashboard: Google Cloud Dienststatus
  • einen öffentlichen RSS-Feed
  • Die Google Cloud Console

    1. Rufen Sie in der Google Cloud Console die Seite Support > Anfragen auf.

      Zur Seite "Fälle"

    2. Wählen Sie in der Symbolleiste der Console über die Ressourcenauswahl die Ressource aus, für die Sie bekannte Probleme auflisten möchten.

    3. Klicken Sie auf den Tab Bekannte Probleme.

      Zu den bekannten Problemen gehören auch kleinere Vorfälle mit begrenztem Umfang. Sie können einen Supportfall mit einem bekannten Problem verknüpfen, damit Sie regelmäßige Updates erhalten und mit dem Support kommunizieren können. Supportfälle sind für Probleme gedacht, die nicht als Vorfälle eingestuft werden oder für die eine direkte Interaktion erforderlich ist. Wenn Sie Premium-, erweiterten oder Standardsupport haben, können Sie einen Vorfall melden, indem Sie einen Supportfall erstellen.

Wenn Sie über die oben genannten Ressourcen nicht auf die Google Cloud Dienstbereitschaft zugreifen können, können Sie das Google Cloud Formular für Fragen zum Plattformsupport verwenden.

Unterstützte Google Cloud Service Health-Vorfälle

Bei den meisten Google Cloud Vorfällen erhalten betroffene Kunden Informationen zu Vorfällen direkt über Personalized Service Health in der Google Cloud Console. Wenn die Benachrichtigungsbedingungen erfüllt sind, lösen diese Vorfälle auch alle von Ihnen konfigurierten Benachrichtigungen zur Dienstbereitschaft aus.

Vorfälle, die eines der folgenden Kriterien erfüllen, werden unter Google Cloud Dienstbereitschaft angezeigt:

  • Schwerwiegende, öffentliche Vorfälle
  • Vorfälle, die auftreten, wenn das Dashboard „Personalized Service Health“ nicht verfügbar ist

Schwerwiegender Vorfall

Google Cloud definiert einen Vorfall als größeren Vorfall, wenn er alle folgenden Bedingungen erfüllt:

  • Großer Umfang: Der Vorfall hat globale Auswirkungen oder betrifft einen erheblichen Prozentsatz der Kundenprojekte in mehreren Regionen.
  • Hohe Schwere: Mindestens ein Produkt ist nicht verfügbar oder stark beeinträchtigt.

Im seltenen Fall eines größeren Vorfalls ergreifen wir umgehend Maßnahmen, um alle Probleme zu beheben.

Bei einem schwerwiegenden Vorfall wird der Status des Problems über das Google Cloud Service Health Dashboard mitgeteilt. Ein schwerwiegender Vorfall wird im Dashboard als Dienstausfall gekennzeichnet. Nach der Behebung des Problems veröffentlichen wir einen öffentlichen Vorfallbericht, der Details zu den Faktoren enthält, die zum Vorfall beigetragen haben, und die Maßnahmen, die wir ergreifen möchten, um solche Vorfälle in Zukunft zu vermeiden.

Bei Vorfällen mit geringerem Umfang kann Kunden ein nicht öffentlicher Bericht zur Verfügung gestellt werden.

Lebenszyklus eines Vorfalls

Wenn die Beeinträchtigung eines Produkts festgestellt wird, versuchen das Google Cloud Supportteam und das Produktentwicklungsteam gemeinsam, den Vorfall zu beheben und Sie darüber zu informieren.

Das folgende Diagramm zeigt die Zuständigkeiten der Produktentwicklungs- und Supportteams:

Lebenszyklusdiagramm

Weitere Informationen zu den einzelnen Aufgaben finden Sie in den folgenden Abschnitten.

Erkennung

Google Cloud verwendet internes und synthetisches Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches „Site Reliability Engineering“.

Erste Antwort

Wenn ein Vorfall erkannt wird, übernimmt das Google Cloud Customer Care-Team die Kommunikation mit Kunden. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Prüfen

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Abhilfe und Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für ein überlastetes Produkt bereitgestellt werden.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Nachfassen

Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Retrospektive

Alle Vorfälle werden intern nachvollzogen, um den Vorfall vollständig nachzuvollziehen und Verbesserungen der Zuverlässigkeit zu identifizieren, die Google vornehmen kann. Diese Verbesserungen werden dann erfasst und zum Schluss implementiert. Weitere Informationen finden Sie in Kapitel 15 des Buches „Site Reliability Engineering“.

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Retrospektiven achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Retrospektiven mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Produkte für unsere Kunden zu demonstrieren.

Datenmodell für Vorfälle

Ein Vorfall kann sich auf ein oder mehrere Produkte an einem oder mehreren Standorten auswirken. Vorfälle haben eine Start- und eine Endzeit sowie eine Gesamtschwere. Ein Vorfall enthält Aktualisierungen, die beschreiben, wie sich der Vorfall im Laufe der Zeit ändert, einschließlich seines Status und der betroffenen Standorte. Die Informationen zu Vorfällen werden über ein JSON-Schema zur Verfügung gestellt.

Das JSON-Schema enthält Felder, die als Stable (Stabil) und Unstable (Unstabil) gekennzeichnet sind. Im Allgemeinen gelten ID-Felder als stabil, während Felder wie Anzeigenamen als instabile Felder eingestuft werden und sich ohne Warnung ändern können. Verwenden Sie Felder vom Typ Stable nur, wenn Sie ein externes System oder eine Gebäudeautomation einbinden. Weitere Informationen finden Sie in diesem Dokument unter Kann ich Integrationen erstellen, um Dienststatusdaten programmatisch zu nutzen? Google Cloud .

FAQ

Die folgenden häufig gestellten Fragen können Ihnen beim Überwachen des Zustands Ihrer Google Cloud Produkte helfen.

Wo finde ich Informationen zu früheren Produktstörungen und -ausfällen?

Google Cloud In der Service Health-Übersicht werden Unterbrechungen und Ausfälle vonGoogle Cloud -Produkten bis zu fünf Jahre lang aufgezeichnet. Auf dem Dashboard sehen Sie den aktuellen Status der Produkte nach Sprache. Wenn Sie Informationen zu Produktunterbrechungen und -ausfällen im letzten Jahr aufrufen möchten, klicken Sie auf Vorfallverlauf ansehen. Wenn Sie den Ausfallverlauf eines Produkts für die letzten fünf Jahre aufrufen möchten, klicken Sie für dieses Produkt auf Mehr anzeigen.

Wie kann ich mir regionalisierte Statusinformationen für Google Cloud -Produkte ansehen?

Google Cloud Unter „Dienststatus“ sehen Sie den Status aller Google Cloud Produkte, sortiert nach Region und globaler Sprache. Wenn Sie den Status für einen multiregionalen Standort aufrufen möchten, wählen Sie den regionsspezifischen Tab aus.

Kann ich Integrationen erstellen, um Google Cloud Daten zur Dienstgesundheit programmatisch zu nutzen?

Ja, Sie haben folgende Möglichkeiten, die im Dashboard „Dienststatus“ angezeigten Daten zu verwenden: Google Cloud

Der RSS-Feed und die JSON-Verlaufsdatei enthalten Informationen zum Status von Vorfällen, die über Integrationen verwendet werden können.

Verwenden Sie die Felder in der JSON-Verlaufsdatei, die als Stable (Stabil) gekennzeichnet sind, anstelle der Felder, die als Unstable (Unstabil) gekennzeichnet sind. Wenn Sie beispielsweise Probleme, die sich auf eine bestimmte Gruppe von Produkten auswirken, programmatisch identifizieren möchten, verwenden Sie die Produkt-IDs (affected_products>id) und nicht die Anzeigenamen.

Produkt-IDs und Produktnamen

Bisher gab es in der Google Cloud Seite „Dienststatus“ keinen Mechanismus zum Auffinden der ID für ein bestimmtes Produkt. Seit Anfang 2023 ist unter Google CloudService Health ein Produktkatalog verfügbar,in dem diese Zuordnung für alle Produkte angegeben ist. Eine Produkt-ID bietet ein stabiles Feld, das als Ausgangspunkt verwendet werden kann, während sich der Anzeigename eines Produkts ändern kann. Sie sollten die Produkt-ID angeben, wenn Sie Probleme, die sich auf eine Reihe von Produkten auswirken, programmatisch identifizieren.

Was ist, wenn ich Integrationen auf der Grundlage früherer Google Cloud Implementierungen der Dienstbereitschaft habe?

Sowohl im RSS-Feed als auch in der JSON-Datei ergänzen die Informationen zum regionalen Status die Informationen, die bereits vor der Einführung der regionalen Statusberichte und der Änderung des Namens vonGoogle Cloud Dienststatus veröffentlicht wurden. Daher gehen wir davon aus, dass Ihre bestehenden Integrationen weiterhin funktionieren. Wenn Sie die Informationen zum regionalen Status jedoch über Ihre Integrationen verwenden möchten, müssen Sie sie ändern.

Hier eine detaillierte Beschreibung, wie regionale Informationen sowohl im RSS-Feed als auch in der JSON-Datei dargestellt werden:

  • RSS-Feed

    Die Informationen zum regionalen Status sind eine neue Ergänzung zu den Feedinformationen, die vor der Einführung des regionalen Status bereitgestellt wurden. Alle als betroffen gemeldeten Standorte werden an die RSS-Nachricht angehängt.

  • JSON-Datei

    Vor der Aktualisierung des regionalen Status hat Google Cloud einen Stream mit Vorfällen veröffentlicht, in dem jeder Vorfall eine Liste der betroffenen Produkte und gegebenenfalls eine Liste der Statusaktualisierungen für jedes Produkt enthielt. Diese Statusaktualisierungen enthielten ein unstrukturiertes Stringfeld, das die Standortinformationen enthielt oder nicht.

    Jetzt veröffentlicht Google Cloud wie zuvor einen Stream von Vorfällen. Jede Statusaktualisierung für jeden Vorfall enthält jedoch die folgenden neuen Felder:

    • updates.affected_locations: enthält eine strukturierte Liste der betroffenen Standorte zum Zeitpunkt der Veröffentlichung der Aktualisierung. Dieses Feld ist in jedem Aktualisierungs- und most_recent_update-Eintrag enthalten.
    • currently_affected_locations: Enthält die neuesten Informationen zu den Standorten, die vom Vorfall aktiv betroffen sind. Im Gegensatz zu updates.affected_locations wird diese Liste nach der Behebung des Problems leer, d. h. wenn end auf einen nicht leeren Wert festgelegt ist.
    • previously_affected_locations: enthält eine Liste der Standorte, die bei einem Vorfall zuvor betroffen waren, derzeit aber nicht. Im Laufe des Vorfalls wird die Störung an einigen Standorten möglicherweise behoben. Diese Standorte sind weiterhin in der previously_affected_locations field verfügbar. Sobald der Vorfall behoben ist (d. h. wenn end auf einen nicht leeren Wert festgelegt ist), enthält dieses Feld eine Liste aller Standorte, die von diesem Vorfall betroffen waren.

Was ist, wenn ich ein Problem habe, dieses jedoch nicht unter „Dienststatus“ aufgeführt wird? Google Cloud

Google Cloud Unter „Dienstbereitschaft“ finden Sie aktuelle und bisherige Statusinformationen zu allen größeren Vorfällen, die sich auf Google Cloud Produkte und Dienste auswirken. Wenn Sie ein Problem feststellen, das nicht unterGoogle Cloud Dienststatus aufgeführt ist, kann es sich nur auf Ihre Projekte oder Instanzen beziehen oder nur eine begrenzte Anzahl von Kunden betreffen. Vorfälle mit geringerem Umfang können im Supportportal aufgeführt werden. Sie können sich bei Problemen, die nicht in der Übersicht zur Dienstbereitschaft aufgeführt sind, an den Kundenservice wenden. Google Cloud

Wenn Sie Personalized Service Health bereits verwenden, prüfen Sie, ob das Problem dort aufgeführt ist, um festzustellen, ob Ihr Projekt oder Ihre Instanz betroffen ist.

Wenn Sie die Google Cloud Console verwenden, wählen Sie in der oberen Symbolleiste > Feedback senden aus.

Wer aktualisiert den Status Google Cloud „Dienstbereitschaft“?

Das globale Customer Care-Team überwacht den Status der Produkte anhand vieler verschiedener Signale und aktualisiert den Google Cloud Dienststatus, falls ein größeres Problem auftritt. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.

Nächste Schritte