Dieses Prinzip im Bereich „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen helfen, nach Ausfällen und Vorfällen effektive Postmortems durchzuführen.
Dieses Prinzip ist für den Lernbereich Zuverlässigkeit relevant.
Übersicht über die Grundsätze
Ein Postmortem ist ein schriftlicher Bericht über einen Vorfall, seine Auswirkungen, die Maßnahmen zur Eindämmung oder Behebung des Vorfalls, die Ursachen und die Folgemaßnahmen zur Verhinderung eines erneuten Auftretens des Vorfalls. Ziel einer Analyse ist es, aus Fehlern zu lernen und nicht, jemandem die Schuld zuzuweisen.
Das folgende Diagramm zeigt den Workflow einer Post-Mortem-Analyse:
Der Workflow einer Post-Mortem-Analyse umfasst die folgenden Schritte:
- Postmortem erstellen
- Fakten erfassen
- Grundursachen ermitteln und analysieren
- Für die Zukunft planen
- Plan ausführen
Führen Sie nach wichtigen und weniger wichtigen Ereignissen wie den folgenden Post-Mortem-Analysen durch:
- Für Nutzer sichtbare Ausfallzeiten oder Leistungseinbußen, die einen bestimmten Schwellenwert überschreiten.
- Datenverlust jeglicher Art.
- Eingriffe von Bereitschaftsingenieuren, z. B. ein Release-Rollback oder das Umleiten von Traffic.
- Lösungszeiten über einem definierten Schwellenwert.
- Überwachung von Fehlern, die in der Regel eine manuelle Vorfallerkennung erfordern.
Empfehlungen
Legen Sie die Kriterien für die Analyse fest, bevor ein Vorfall eintritt, damit alle wissen, wann eine Analyse erforderlich ist.
Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um effektive Postmortems durchzuführen.
Nachbesprechungen ohne Schuldzuweisung durchführen
Bei effektiven Postmortems geht es um Prozesse, Tools und Technologien. Es wird nicht versucht, Einzelpersonen oder Teams die Schuld zu geben. Ziel einer Störungsanalyse ist es, Ihre Technologie und Zukunft zu verbessern, nicht, den Schuldigen zu finden. Jeder macht Fehler. Ziel sollte es sein, die Fehler zu analysieren und daraus zu lernen.
Die folgenden Beispiele zeigen den Unterschied zwischen Feedback, das Schuld zuweist, und Feedback ohne Schuldzuweisung:
- Feedback, das Schuldzuweisungen enthält: „Wir müssen das gesamte komplizierte Backend-System neu schreiben! Es ist in den letzten drei Quartalen jede Woche kaputt gegangen und ich bin sicher, dass wir alle es leid sind, die Dinge stückweise zu reparieren. Wenn ich noch einmal benachrichtigt werde, schreibe ich es selbst…“
- Schuldfreies Feedback: „Eine Maßnahme zur Überarbeitung des gesamten Backend-Systems könnte tatsächlich verhindern, dass diese Seiten weiterhin auftreten. Das Wartungshandbuch für diese Version ist sehr lang und es ist wirklich schwierig, sich darin einzuarbeiten. Ich bin sicher, dass unsere zukünftigen On-Call-Techniker uns dafür danken werden.“
Post-Mortem-Bericht für alle Zielgruppen lesbar machen
Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob sie wichtig und notwendig ist, damit die Zielgruppe nachvollziehen kann, was passiert ist. Zusätzliche Daten und Erläuterungen können in einen Anhang des Berichts verschoben werden. Prüfer, die weitere Informationen benötigen, können diese anfordern.
Komplexe oder überentwickelte Lösungen vermeiden
Bevor Sie mit der Suche nach Lösungen für ein Problem beginnen, sollten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines erneuten Auftretens bewerten. Wenn Sie das System komplexer machen, um Probleme zu beheben, die wahrscheinlich nicht noch einmal auftreten, kann das zu einer erhöhten Instabilität führen.
Postmortem-Bericht so weit wie möglich verbreiten
Damit Probleme nicht ungelöst bleiben, sollten Sie die Ergebnisse der Post-Mortem-Analyse für ein breites Publikum veröffentlichen und Unterstützung vom Management einholen. Der Wert einer Post-Mortem-Analyse hängt davon ab, was nach der Analyse gelernt wird. Wenn mehr Personen aus Vorfällen lernen, sinkt die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.