Hochverfügbare Systeme durch Ressourcenredundanz erstellen

Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework gibt Empfehlungen zum Planen, Erstellen und Verwalten von Ressourcenredundanz, mit denen Sie Ausfälle vermeiden können.

Dieses Prinzip ist für den Bereich Schwerpunkt der Zuverlässigkeit relevant.

Prinzip – Übersicht

Nachdem Sie das benötigte Zuverlässigkeitsniveau bestimmt haben, müssen Sie Ihre Systeme so konzipieren, dass keine Single Points of Failure auftreten. Jede kritische Komponente im System muss über mehrere Maschinen, Zonen und Regionen repliziert werden. Eine kritische Datenbank kann sich beispielsweise nicht in nur einer Region befinden und ein Metadatenserver kann nicht nur in einer einzelnen Zone oder Region bereitgestellt werden. Wenn in diesen Beispielen die einzige Zone oder Region ausfällt, kommt es zu einem globalen Ausfall des Systems.

Empfehlungen

Beachten Sie beim Erstellen redundanter Systeme die Empfehlungen in den folgenden Unterabschnitten.

Fehlerdomains identifizieren und Dienste replizieren

Ordnen Sie die Fehlerdomains Ihres Systems von einzelnen VMs bis Regionen zu und sorgen Sie für Redundanz in den gesamten fehlerhaften Domains.

Verteilen und replizieren Sie Ihre Dienste und Anwendungen über mehrere Zonen und Regionen hinweg, um Hochverfügbarkeit zu gewährleisten. Konfigurieren Sie das System für das automatische Failover, damit die Dienste und Anwendungen bei Ausfällen von Zonen oder Regionen weiterhin verfügbar sind.

Beispiele für Architekturen mit mehreren Zonen und mehreren Regionen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloudentwerfen.

Probleme schnell erkennen und beheben

Verfolgen Sie kontinuierlich den Status Ihrer fehlerhaften Domains, um Probleme schnell erkennen und beheben zu können.

Mit dem Google Cloud Service Health-Dashboard können Sie den aktuellen Status der Dienste Google Cloud in allen Regionen überwachen. Sie können für Ihr Projekt relevante Vorfälle auch mithilfe von Personalized Service Health aufrufen. Mit Load-Balancern können Sie den Ressourcenzustand erkennen und Traffic automatisch an fehlerfreie Back-Ends weiterleiten. Weitere Informationen finden Sie unter Systemdiagnosen – Übersicht.

Failover-Szenarien testen

Simulieren Sie wie bei einer Brandübung regelmäßig Fehler, um die Effektivität Ihrer Replikations- und Failover-Strategien zu validieren.

Weitere Informationen finden Sie unter Zonenausfall für eine regionale MIG simulieren und Zonenfehler in regionalen GKE-Clustern simulieren.