Hochverfügbare Systeme durch Ressourcenredundanz erstellen

Last reviewed 2024-12-30 UTC

Dieses Prinzip im Zuverlässigkeitsbereich des Google Cloud Well-Architected Framework enthält Empfehlungen zur Planung, Erstellung und Verwaltung von Ressourcenredundanz, die Ihnen helfen können, Ausfälle zu vermeiden.

Dieser Grundsatz ist für den Fokusbereich Umfang der Zuverlässigkeit relevant.

Übersicht über die Grundsätze

Nachdem Sie das erforderliche Zuverlässigkeitsniveau festgelegt haben, müssen Sie Ihre Systeme so konzipieren, dass Single Points of Failure vermieden werden. Jede kritische Komponente im System muss auf mehreren Maschinen, Zonen und Regionen repliziert werden. Eine kritische Datenbank kann beispielsweise nicht nur in einer Region vorhanden sein und ein Metadatenserver kann nicht nur in einer einzelnen Zone oder Region bereitgestellt werden. Wenn in diesen Beispielen die einzige Zone oder Region einen Ausfall hat, hat das System einen globalen Ausfall.

Empfehlungen

Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um redundante Systeme zu erstellen.

Ausfalldomänen identifizieren und Dienste replizieren

Erstellen Sie eine Übersicht der Fehlerdomains Ihres Systems, von einzelnen VMs bis hin zu Regionen, und planen Sie Redundanz in den Fehlerdomains ein.

Um eine hohe Verfügbarkeit zu gewährleisten, sollten Sie Ihre Dienste und Anwendungen auf mehrere Zonen und Regionen verteilen und replizieren. Konfigurieren Sie das System für automatisches Failover, damit die Dienste und Anwendungen bei Zonen- oder Regionsausfällen weiterhin verfügbar sind.

Beispiele für multizonale und multiregionale Architekturen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.

Probleme schnell erkennen und beheben

Behalten Sie den Status Ihrer Fehlerbereiche im Blick, um Probleme rechtzeitig zu erkennen und zu beheben.

Sie können den aktuellen Status der Google Cloud -Dienste in allen Regionen über das Google Cloud Service Health-Dashboard überwachen. Sie können auch Vorfälle, die für Ihr Projekt relevant sind, mit Personalized Service Health anzeigen. Mit Load-Balancern können Sie den Zustand von Ressourcen erkennen und Traffic automatisch an fehlerfreie Backends weiterleiten. Weitere Informationen finden Sie unter Systemdiagnosen – Übersicht.

Failover-Szenarien testen

Simulieren Sie regelmäßig Fehler, um die Effektivität Ihrer Replikations- und Failover-Strategien zu prüfen.

Weitere Informationen finden Sie unter Ausfall einer Zone für eine regionale MIG simulieren und Ausfall einer Zone in regionalen GKE-Clustern simulieren.