Gründliche Postmortem-Analysen durchführen

Dieses Prinzip in der Säule Zuverlässigkeit des Google Cloud Well-Architected Framework gibt Empfehlungen zur Durchführung effektiver Postmortems nach Ausfällen und Vorfällen.

Dieses Prinzip ist für den Schwerpunkt der Zuverlässigkeit beim Lernen relevant.

Prinzip – Übersicht

Eine Postmortem-Analyse ist eine schriftliche Aufzeichnung eines Vorfalls, seiner Auswirkungen, der Maßnahmen, die zur Minderung oder Behebung des Vorfalls ergriffen wurden, der Ursachen und der Folgemaßnahmen, die ein wiederkehrendes Ereignis des Vorfalls verhindern. Das Ziel einer Postmortem-Analyse ist es, aus Fehlern zu lernen und keine Schuld zuzuweisen.

Das folgende Diagramm zeigt den Workflow einer Postmortem-Analyse:

Der Arbeitsablauf einer Postmortem-Analyse.

Der Arbeitsablauf einer Postmortem-Analyse umfasst die folgenden Schritte:

  • Postmortem erstellen
  • Fakten erfassen
  • Ursachen identifizieren und analysieren
  • Für die Zukunft planen
  • Plan ausführen

Führen Sie Postmortem-Analysen nach größeren und weniger wichtigen Ereignissen wie den folgenden durch:

  • Für den Nutzer sichtbare Ausfallzeiten oder Verschlechterungen über einen bestimmten Grenzwert hinaus.
  • Datenverluste jeglicher Art.
  • Eingriffe von Bereitschaftsentwicklern, z. B. Release-Rollback oder Umleitung des Traffics.
  • Zeit bis zur Lösung über einem definierten Grenzwert.
  • Monitoringfehler, die normalerweise eine manuelle Vorfallerkennung erfordern.

Empfehlungen

Definieren Sie Postmortem-Kriterien, bevor es zu einem Vorfall kommt, damit alle wissen, wann eine Postmortem erforderlich ist.

Berücksichtigen Sie zur Durchführung effektiver Postmortems die Empfehlungen in den folgenden Unterabschnitten.

Postmortem-Analysen ohne Schuldzuweisungen durchführen

Effektive Postmortems konzentrieren sich auf Prozesse, Tools und Technologien und geben Einzelpersonen oder Teams keine Schuld. Der Zweck einer Postmortem-Analyse besteht darin, Ihre Technologie und Zukunft zu verbessern. Es geht nicht darum, herauszufinden, wer schuldig ist. Jeder macht Fehler. Das Ziel sollte darin bestehen, die Fehler zu analysieren und aus ihnen zu lernen.

Die folgenden Beispiele zeigen den Unterschied zwischen Feedback, bei dem Schuldzuweisungen zugeschrieben werden, und Feedback ohne Schuldzuweisungen:

  • Feedback, das Schuldzuweisungen zuweist: "Wir müssen das gesamte komplizierte Back-End-System neu schreiben. In den letzten drei Quartalen kam es jede Woche durcheinander und ich bin sicher, dass wir alle es satt haben, Dinge stückweise zu reparieren. Ernsthaft, wenn ich noch einmal Pager bekomme, schreibe ich ihn selbst um..."
  • Feedback ohne Schuldzuweisung: "Eine Maßnahme zum Umschreiben des gesamten Back-End-Systems könnte verhindern, dass diese Seiten weiterhin ausgeführt werden. Das Wartungshandbuch für diese Version ist ziemlich lang und sehr schwierig, sich umfassend damit vertraut zu machen. Ich bin mir sicher, dass unsere zukünftigen Bereitschaftsentwickler es uns danken werden.“

Die Postmortem-Analyse ist für alle Zielgruppen lesbar.

Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob diese wichtig und notwendig sind, damit die Zielgruppe das Geschehen besser nachvollziehen kann. Sie können ergänzende Daten und Erläuterungen in einen Anhang des Berichts verschieben. Prüfer, die weitere Informationen benötigen, können diese anfordern.

Komplexe oder übermäßig entwickelte Lösungen vermeiden

Bevor Sie mit der Suche nach Lösungen für ein Problem beginnen, bewerten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines Wiederholungs. Wenn das System komplexer wird, um Probleme zu lösen, die wahrscheinlich nicht noch einmal auftreten, kann dies zu erhöhter Instabilität führen.

Postmortem so breit wie möglich teilen

Damit Probleme nicht gelöst werden, sollten Sie das Ergebnis der Postmortem-Analyse einem breiten Publikum zugänglich machen und Unterstützung vom Management erhalten. Der Wert einer Postmortem-Analyse ist proportional zu den Erkenntnissen, die danach erfolgen. Wenn mehr Personen aus Vorfällen lernen, sinkt die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.