Well-Architected Framework: Säule „Zuverlässigkeit“

Last reviewed 2024-12-30 UTC

Die Säule „Zuverlässigkeit“ im Google Cloud Well-Architected Framework bietet Prinzipien und Empfehlungen, mit denen Sie zuverlässige Arbeitslasten in Google Cloudentwerfen, bereitstellen und verwalten können.

Dieses Dokument richtet sich an Cloud-Architekten, Entwickler, Plattformtechniker, Administratoren und Site Reliability Engineers.

Zuverlässigkeit ist die Fähigkeit eines Systems, seine beabsichtigten Funktionen unter den definierten Bedingungen konsistent auszuführen und einen unterbrechungsfreien Dienst aufrechtzuerhalten. Best Practices für die Zuverlässigkeit umfassen Redundanz, fehlertolerantes Design, Monitoring und automatisierte Wiederherstellungsprozesse.

Resilienz ist die Fähigkeit des Systems, Fehler oder unerwartete Störungen zu überstehen und sich davon zu erholen, während die Leistung aufrechterhalten wird.Google Cloud -Funktionen wie Bereitstellungen in mehreren Regionen, automatische Back-ups und Lösungen für die Notfallwiederherstellung können Ihnen helfen, die Resilienz Ihres Systems zu verbessern.

Zuverlässigkeit ist aus vielen Gründen wichtig für Ihre Cloud-Strategie, unter anderem aus den folgenden:

  • Minimale Ausfallzeiten: Ausfallzeiten können zu Umsatzeinbußen, geringerer Produktivität und Reputationsschäden führen. Robuste Architekturen können dazu beitragen, dass Systeme auch bei Ausfällen weiter funktionieren oder sich effizient von Ausfällen erholen können.
  • Verbesserte Nutzerfreundlichkeit: Nutzer erwarten nahtlose Interaktionen mit Technologie. Robuste Systeme können dazu beitragen, eine gleichbleibende Leistung und Verfügbarkeit aufrechtzuerhalten, und bieten auch bei hoher Nachfrage oder unerwarteten Problemen einen zuverlässigen Dienst.
  • Datenintegrität: Fehler können zu Datenverlust oder Datenbeschädigung führen. In resilienten Systemen werden Mechanismen wie Sicherungen, Redundanz und Replikation implementiert, um Daten zu schützen und dafür zu sorgen, dass sie korrekt und zugänglich bleiben.
  • Aufrechterhaltung des Geschäftsbetriebs: Ihr Unternehmen ist für kritische Vorgänge auf Technologie angewiesen. Robuste Architekturen können dazu beitragen, die Kontinuität nach einem katastrophalen Ausfall sicherzustellen. So können Geschäftsfunktionen ohne größere Unterbrechungen fortgesetzt werden und eine schnelle Wiederherstellung wird unterstützt.
  • Compliance: In vielen Branchen gibt es behördliche Anforderungen an die Systemverfügbarkeit und den Datenschutz. Resiliente Architekturen können Ihnen helfen, diese Standards einzuhalten, indem sie dafür sorgen, dass Systeme betriebsbereit und sicher bleiben.
  • Niedrigere langfristige Kosten: Robuste Architekturen erfordern Vorabinvestitionen. Die Robustheit kann jedoch dazu beitragen, die Kosten im Laufe der Zeit zu senken, indem teure Ausfallzeiten verhindert, reaktive Korrekturen vermieden und eine effizientere Ressourcennutzung ermöglicht wird.

Organisatorische Denkweise

Damit Ihre Systeme zuverlässig sind, benötigen Sie einen Plan und eine etablierte Strategie. Diese Strategie muss Schulungen und die Befugnis umfassen, Zuverlässigkeit neben anderen Initiativen zu priorisieren.

Machen Sie deutlich, dass die gesamte Organisation für die Zuverlässigkeit verantwortlich ist, einschließlich Entwicklung, Produktmanagement, Betrieb, Plattformentwicklung und Site Reliability Engineering (SRE). Sogar geschäftsorientierte Gruppen wie Marketing und Vertrieb können die Zuverlässigkeit beeinflussen.

Jedes Team muss die Zuverlässigkeitsziele und Risiken seiner Anwendungen kennen. Die Teams müssen für diese Anforderungen verantwortlich sein. Konflikte zwischen Zuverlässigkeit und regulärer Produktfeature-Entwicklung müssen priorisiert und entsprechend eskaliert werden.

Planen und verwalten Sie die Zuverlässigkeit ganzheitlich für alle Ihre Funktionen und Teams. Erwägen Sie die Einrichtung eines Cloud Center of Excellence (CCoE), das eine Säule für Zuverlässigkeit umfasst. Weitere Informationen finden Sie unter Cloud Center of Excellence zur Optimierung der Cloud-Migration Ihrer Organisation.

Schwerpunkte für Zuverlässigkeit

Die Aktivitäten, die Sie zum Entwerfen, Bereitstellen und Verwalten eines zuverlässigen Systems ausführen, lassen sich in die folgenden Schwerpunktbereiche einteilen. Jedes der Zuverlässigkeitsprinzipien und ‑empfehlungen in dieser Säule bezieht sich auf einen dieser Schwerpunktbereiche.

  • Umfang: Führen Sie eine detaillierte Analyse der Architektur Ihres Systems durch, um es zu verstehen. Sie müssen die Komponenten, ihre Funktionsweise und Interaktion, den Fluss von Daten und Aktionen durch das System und mögliche Fehlerquellen verstehen. Potenzielle Fehler, Engpässe und Risiken identifizieren, damit Sie Maßnahmen ergreifen können, um diese Probleme zu beheben.
  • Beobachtung: Um Systemausfälle zu vermeiden, sollten Sie eine umfassende und kontinuierliche Beobachtung und Überwachung implementieren. So können Sie Trends erkennen und potenzielle Probleme proaktiv identifizieren.
  • Reaktion: Um die Auswirkungen von Fehlern zu reduzieren, müssen Sie angemessen reagieren und sich effizient erholen. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Fehlern zu verringern. Trotz Planung und Kontrollen können Fehler auftreten.
  • Lernen: Um zu verhindern, dass Fehler wieder auftreten, sollten Sie aus jeder Erfahrung lernen und entsprechende Maßnahmen ergreifen.

Grundprinzipien

Die Empfehlungen in der Säule „Zuverlässigkeit“ des Well-Architected Framework sind den folgenden Grundprinzipien zugeordnet:

Beitragende

Autoren:

Weitere Beitragende: