Vorfälle und Probleme verwalten

Last reviewed 2024-10-31 UTC

Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Verwaltung von Vorfällen und Problemen im Zusammenhang mit Ihren Cloud-Arbeitslasten. Dazu gehören die Implementierung umfassender Überwachungs- und Beobachtbarkeitsfunktionen, die Festlegung klarer Verfahren für die Reaktion auf Vorfälle, die Durchführung gründlicher Ursachenanalysen und die Implementierung präventiver Maßnahmen. Viele der in diesem Grundsatz behandelten Themen werden im Zuverlässigkeits-Pfeiler ausführlich behandelt.

Übersicht über die Grundsätze

Das Vorfall- und Problemmanagement sind wichtige Komponenten einer funktionalen Betriebsumgebung. Wie Sie auf Vorfälle unterschiedlicher Schwere reagieren, sie kategorisieren und beheben, kann sich erheblich auf Ihre Abläufe auswirken. Sie müssen auch proaktiv und kontinuierlich Anpassungen vornehmen, um Zuverlässigkeit und Leistung zu optimieren. Ein effizienter Prozess für das Incident- und Problemmanagement basiert auf den folgenden grundlegenden Elementen:

  • Kontinuierliches Monitoring: Probleme schnell erkennen und beheben.
  • Automatisierung: Aufgaben optimieren und Effizienz steigern
  • Orchestrierung: Cloud-Ressourcen effektiv koordinieren und verwalten.
  • Datengestützte Statistiken: Cloud-Vorgänge optimieren und fundierte Entscheidungen treffen.

Diese Elemente helfen Ihnen, eine robuste Cloud-Umgebung zu schaffen, die eine Vielzahl von Herausforderungen und Störungen bewältigen kann. Diese Elemente können auch dazu beitragen, das Risiko kostspieliger Vorfälle und Ausfallzeiten zu verringern und eine höhere geschäftliche Agilität und einen größeren Erfolg zu erzielen. Diese grundlegenden Elemente sind auf die vier Schwerpunktbereiche der Betriebsbereitschaft verteilt: Mitarbeiter, Prozesse, Tools und Governance.

Empfehlungen

Wenn Sie Vorfälle und Probleme effektiv verwalten möchten, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen. Jede Empfehlung in diesem Dokument bezieht sich auf einen oder mehrere der Schwerpunkte der Betriebsbereitschaft.

Klare Verfahren für die Reaktion auf Vorfälle festlegen

Klare Rollen und Verantwortlichkeiten sind unerlässlich, um eine effektive und koordinierte Reaktion auf Vorfälle zu gewährleisten. Außerdem tragen klare Kommunikationsprotokolle und Eskalierungswege dazu bei, dass Informationen während eines Vorfalls zeitnah und effektiv weitergegeben werden. Diese Empfehlung ist für die folgenden Schwerpunkte der Betriebsbereitschaft relevant: Mitarbeiter, Prozesse und Tools.

Um Verfahren für die Reaktion auf Vorfälle zu entwickeln, müssen Sie die Rollen und Erwartungen jedes Teammitglieds definieren, z. B. Incident Commander, Ermittler, Kommunikatoren und technische Experten. Das Einrichten von Kommunikations- und Eskalierungspfaden umfasst das Identifizieren wichtiger Kontakte, das Einrichten von Kommunikationskanälen und das Definieren des Prozesses für die Eskalierung von Vorfällen an höhere Führungsebenen, falls erforderlich. Regelmäßige Schulungen und Vorbereitung tragen dazu bei, dass Teams über das Wissen und die Fähigkeiten verfügen, um effektiv auf Vorfälle zu reagieren.

Wenn Sie Verfahren zur Reaktion auf Vorfälle in einem Runbook oder Playbook dokumentieren, können Sie ein standardisiertes Nachschlagewerk für Teams erstellen, das sie während eines Vorfalls verwenden können. Im Runbook müssen die Schritte beschrieben werden, die in jeder Phase des Prozesses zur Reaktion auf Vorfälle zu ergreifen sind, einschließlich Kommunikation, Triage, Untersuchung und Behebung. Außerdem müssen Informationen zu relevanten Tools und Ressourcen sowie Kontaktinformationen für wichtiges Personal enthalten sein. Sie müssen das Runbook regelmäßig überprüfen und aktualisieren, damit es aktuell und effektiv bleibt.

Vorfallmanagement zentralisieren

Für ein effektives Tracking und Management während des gesamten Vorfalllebenszyklus empfiehlt es sich, ein zentrales Vorfallmanagementsystem zu verwenden. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Prozesse und Tools.

Ein zentralisiertes System zur Vorfallverwaltung bietet folgende Vorteile:

  • Bessere Sichtbarkeit: Durch die Konsolidierung aller incidentbezogenen Daten an einem zentralen Ort müssen Teams nicht mehr in verschiedenen Kanälen oder Systemen nach Kontext suchen. Dieser Ansatz spart Zeit, vermeidet Verwirrung und bietet Stakeholdern einen umfassenden Überblick über den Vorfall, einschließlich Status, Auswirkungen und Fortschritt.
  • Bessere Koordination und Zusammenarbeit: Ein zentrales System bietet eine einheitliche Plattform für die Kommunikation und Aufgabenverwaltung. Sie fördert die nahtlose Zusammenarbeit zwischen den verschiedenen Abteilungen und Funktionen, die an der Reaktion auf Vorfälle beteiligt sind. So haben alle Zugriff auf aktuelle Informationen und das Risiko von Missverständnissen und Abweichungen wird verringert.
  • Verbesserte Verantwortlichkeit und Zuständigkeit: Mit einem zentralen System zur Vorfallverwaltung kann Ihre Organisation Aufgaben bestimmten Personen oder Teams zuweisen. So wird dafür gesorgt, dass Verantwortlichkeiten klar definiert und nachverfolgt werden. Dieser Ansatz fördert die Verantwortlichkeit und regt zu proaktiver Problemlösung an, da Teammitglieder ihren Fortschritt und ihre Beiträge leicht im Blick behalten können.

Ein zentrales System zur Vorfallverwaltung muss robuste Funktionen für die Vorfallverfolgung, die Aufgabenzuweisung und die Kommunikationsverwaltung bieten. Mit diesen Funktionen können Sie Workflows anpassen, Prioritäten festlegen und in andere Systeme wie Monitoring-Tools und Ticketing-Systeme einbinden.

Durch die Implementierung eines zentralen Systems für das Vorfallmanagement können Sie die Prozesse zur Reaktion auf Vorfälle in Ihrer Organisation optimieren, die Zusammenarbeit verbessern und die Transparenz erhöhen. Dies führt zu schnelleren Reaktionszeiten bei Vorfällen, weniger Ausfallzeiten und einer höheren Kundenzufriedenheit. Außerdem wird so eine Kultur der kontinuierlichen Verbesserung gefördert, da Sie aus vergangenen Vorfällen lernen und Bereiche mit Verbesserungspotenzial identifizieren können.

Gründliche Überprüfungen nach Vorfällen durchführen

Nach einem Vorfall müssen Sie eine detaillierte Überprüfung nach dem Vorfall (Post-Incident Review, PIR) durchführen, die auch als Postmortem bezeichnet wird, um die Ursache, die beitragenden Faktoren und die gewonnenen Erkenntnisse zu ermitteln. Diese gründliche Überprüfung hilft Ihnen, ähnliche Vorfälle in Zukunft zu vermeiden. Diese Empfehlung bezieht sich auf die folgenden Schwerpunkte der Betriebsbereitschaft: Prozesse und Governance.

Am PIR-Prozess muss ein multidisziplinäres Team beteiligt sein, das über Fachwissen in verschiedenen Aspekten des Vorfalls verfügt. Das Team muss alle relevanten Informationen durch Interviews, die Überprüfung von Dokumenten und Inspektionen vor Ort sammeln. Es muss eine Zeitachse der Ereignisse erstellt werden, um die Abfolge der Aktionen zu ermitteln, die zum Vorfall geführt haben.

Nachdem das Team die erforderlichen Informationen gesammelt hat, muss es eine Ursachenanalyse durchführen, um die Faktoren zu ermitteln, die zum Vorfall geführt haben. Bei dieser Analyse müssen sowohl die unmittelbare Ursache als auch die systemischen Probleme ermittelt werden, die zu dem Vorfall beigetragen haben.

Das PIR-Team muss nicht nur die Grundursache, sondern auch alle anderen Faktoren ermitteln, die den Vorfall verursacht haben könnten. Zu diesen Faktoren können menschliches Versagen, Geräteausfälle oder organisatorische Faktoren wie Kommunikationsstörungen und mangelnde Schulung gehören.

Im PIR-Bericht müssen die Ergebnisse der Untersuchung dokumentiert werden, einschließlich des Zeitplans der Ereignisse, der Ursachenanalyse und der empfohlenen Maßnahmen. Der Bericht ist eine wertvolle Ressource für die Umsetzung von Korrekturmaßnahmen und die Vermeidung von Wiederholungen. Der Bericht muss mit allen relevanten Stakeholdern geteilt werden und zur Entwicklung von Sicherheitsschulungen und ‑verfahren verwendet werden.

Damit der PIR-Prozess erfolgreich ist, muss Ihre Organisation eine Kultur ohne Schuldzuweisung fördern, die sich auf Lernen und Verbesserung konzentriert, anstatt Schuld zuzuweisen. Diese Kultur ermutigt Einzelpersonen, Vorfälle zu melden, ohne Angst vor Vergeltungsmaßnahmen haben zu müssen. So können Sie systemische Probleme angehen und sinnvolle Verbesserungen vornehmen.

Wenn Sie gründliche PIRs durchführen und auf Grundlage der Ergebnisse Korrekturmaßnahmen ergreifen, können Sie das Risiko ähnlicher Vorfälle in der Zukunft erheblich reduzieren. Dieser proaktive Ansatz zur Untersuchung und Vermeidung von Vorfällen trägt dazu bei, ein sichereres und effizienteres Arbeitsumfeld für alle Beteiligten zu schaffen.

Wissensdatenbank pflegen

Eine Wissensdatenbank mit bekannten Problemen, Lösungen und Anleitungen zur Fehlerbehebung ist für das Incident-Management und die Problembehebung unerlässlich. Teammitglieder können die Wissensdatenbank nutzen, um häufige Probleme schnell zu erkennen und zu beheben. Durch die Implementierung einer Wissensdatenbank kann die Notwendigkeit von Eskalierungen verringert und die allgemeine Effizienz verbessert werden. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Mitarbeiter und Prozesse.

Ein wesentlicher Vorteil einer Wissensdatenbank besteht darin, dass Teams aus früheren Erfahrungen lernen und Fehler vermeiden können. Durch das Erfassen und Teilen von Lösungen für bekannte Probleme können Teams ein gemeinsames Verständnis dafür entwickeln, wie häufige Probleme behoben werden können und welche Best Practices für das Incident-Management gelten. Die Verwendung einer Wissensdatenbank spart Zeit und Aufwand und trägt dazu bei, Prozesse zu standardisieren und für Konsistenz bei der Behebung von Vorfällen zu sorgen.

Eine Wissensdatenbank trägt nicht nur dazu bei, die Reaktionszeiten bei Vorfällen zu verkürzen, sondern fördert auch den Wissensaustausch und die Zusammenarbeit zwischen Teams. Mit einem zentralen Informationsspeicher können Teams einfach auf die Wissensdatenbank zugreifen und dazu beitragen. Das fördert eine Kultur des kontinuierlichen Lernens und der kontinuierlichen Verbesserung. In einer solchen Kultur werden Teams dazu ermutigt, ihr Fachwissen und ihre Erfahrungen zu teilen, was zu einer umfassenderen und wertvolleren Wissensdatenbank führt.

Verwenden Sie geeignete Tools und Technologien, um eine Wissensdatenbank effektiv zu erstellen und zu verwalten. Plattformen für die Zusammenarbeit wie Google Workspace eignen sich gut für diesen Zweck, da Sie damit ganz einfach gemeinsam Dokumente erstellen, bearbeiten und freigeben können. Diese Tools unterstützen auch die Versionskontrolle und die Änderungsnachverfolgung, damit die Wissensdatenbank immer auf dem neuesten Stand und korrekt ist.

Machen Sie die Wissensdatenbank für alle relevanten Teams leicht zugänglich. Sie können dies erreichen, indem Sie die Wissensdatenbank in bestehende Systeme zur Vorfallverwaltung einbinden oder ein spezielles Portal oder eine Intranet-Website bereitstellen. Eine leicht zugängliche Wissensdatenbank ermöglicht es Teams, schnell auf die Informationen zuzugreifen, die sie benötigen, um Vorfälle effizient zu beheben. Diese Verfügbarkeit trägt dazu bei, Ausfallzeiten zu reduzieren und die Auswirkungen auf den Geschäftsbetrieb zu minimieren.

Prüfen und aktualisieren Sie die Wissensdatenbank regelmäßig, damit sie relevant und nützlich bleibt. Vorfallberichte im Blick behalten, häufige Probleme und Trends erkennen und neue Lösungen und Anleitungen zur Fehlerbehebung in die Wissensdatenbank aufnehmen. Eine aktuelle Wissensdatenbank hilft Ihren Teams, Vorfälle schneller und effektiver zu beheben.

Reaktion auf Vorfälle automatisieren

Die Automatisierung trägt dazu bei, Ihre Prozesse für die Reaktion auf Vorfälle und die Fehlerbehebung zu optimieren. So können Sie Sicherheitsverstöße und Systemausfälle schnell und effizient beheben. Mit Google Cloud -Produkten wie Cloud Run-Funktionen oder Cloud Run können Sie verschiedene Aufgaben automatisieren, die normalerweise manuell und zeitaufwendig sind. Diese Empfehlung bezieht sich auf die folgenden Fokusbereiche der operativen Bereitschaft: Prozesse und Tools.

Die automatisierte Reaktion auf Vorfälle bietet folgende Vorteile:

  • Verkürzung der Zeiten für die Erkennung und Behebung von Vorfällen: Automatisierte Tools können Systeme und Anwendungen kontinuierlich überwachen, verdächtige oder anomale Aktivitäten in Echtzeit erkennen und Stakeholder benachrichtigen oder ohne Eingreifen reagieren. Durch diese Automatisierung können Sie potenzielle Bedrohungen oder Probleme erkennen, bevor sie zu schwerwiegenden Vorfällen eskalieren. Wenn ein Vorfall erkannt wird, können automatisierte Tools vordefinierte Abhilfemaßnahmen auslösen, z. B. das Isolieren betroffener Systeme, das Unter Quarantäne stellen schädlicher Dateien oder das Rückgängigmachen von Änderungen, um das System in einen bekannten, funktionierenden Zustand zurückzusetzen.
  • Geringere Belastung für Sicherheits- und Betriebsteams: Durch die automatisierte Reaktion auf Vorfälle können sich die Sicherheits- und Betriebsteams auf strategischere Aufgaben konzentrieren. Durch die Automatisierung von Routine- und sich wiederholenden Aufgaben wie dem Erfassen von Diagnoseinformationen oder dem Auslösen von Benachrichtigungen kann Ihre Organisation Personal für die Bearbeitung komplexerer und kritischer Vorfälle freisetzen. Diese Automatisierung kann die Effektivität und Effizienz der Reaktion auf Vorfälle insgesamt verbessern.
  • Verbesserte Konsistenz und Genauigkeit des Behebungsprozesses: Automatisierte Tools können dafür sorgen, dass Behebungsmaßnahmen einheitlich auf alle betroffenen Systeme angewendet werden. So wird das Risiko menschlicher Fehler oder Inkonsistenzen minimiert. Diese Standardisierung des Behebungsprozesses trägt dazu bei, die Auswirkungen von Vorfällen auf Nutzer und das Unternehmen zu minimieren.