Lebenszyklus eines Vorfalls

In diesem Dokument wird beschrieben, wie das Google Cloud -Supportteam und das Produktentwicklungsteam zusammenarbeiten, um einen Vorfall zu beheben und Sie auf dem Laufenden zu halten.

Das folgende Diagramm zeigt die Zuständigkeiten der Produktentwicklungsteams und Supportteams.

Lebenszyklusdiagramm

In den folgenden Abschnitten werden diese Verantwortlichkeiten erläutert.

Erkennung

Google Cloud verwendet internes und synthetisches Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches „Site Reliability Engineering“.

Erste Antwort

Wenn ein Vorfall erkannt wird, übernimmt das Google Cloud Service Health-Team die Kommunikation mit dem Kunden. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Prüfen

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Abmilderung und Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Service Health und das Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für ein überlastetes Produkt bereitgestellt werden.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Service Health-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Nachfassen

Während eines Vorfalls stellt das Service Health-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Retrospektive

Nach jedem Vorfall findet eine interne Retrospektive statt, um den Vorfall vollständig nachzuvollziehen und zu bestimmen, wie Google die Zuverlässigkeit verbessern kann. Diese Verbesserungen werden dann erfasst und implementiert. Weitere Informationen finden Sie in Kapitel 15 des Buches „Site Reliability Engineering“.

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Retrospektiven achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Retrospektiven mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Produkte für unsere Kunden zu demonstrieren.