Hochverfügbare Systeme durch Ressourcenredundanz erstellen
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Last reviewed 2024-12-30 UTC
Dieses Prinzip im Zuverlässigkeitsbereich des Google Cloud Well-Architected Framework enthält Empfehlungen zur Planung, Erstellung und Verwaltung von Ressourcenredundanz, die Ihnen helfen können, Ausfälle zu vermeiden.
Dieser Grundsatz ist für den Fokusbereich Umfang der Zuverlässigkeit relevant.
Übersicht über die Grundsätze
Nachdem Sie das erforderliche Zuverlässigkeitsniveau festgelegt haben, müssen Sie Ihre Systeme so konzipieren, dass Single Points of Failure vermieden werden.
Jede kritische Komponente im System muss auf mehreren Maschinen, Zonen und Regionen repliziert werden.
Eine kritische Datenbank kann beispielsweise nicht nur in einer Region und ein Metadatenserver nicht nur in einer Zone oder Region bereitgestellt werden. Wenn in diesen Beispielen die einzige Zone oder Region einen Ausfall hat, hat das System einen globalen Ausfall.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um redundante Systeme zu erstellen.
Ausfalldomänen identifizieren und Dienste replizieren
Erstellen Sie eine Übersicht der Fehlerdomains Ihres Systems, von einzelnen VMs bis hin zu Regionen, und planen Sie Redundanz in den Fehlerdomains ein.
Um eine hohe Verfügbarkeit zu gewährleisten, sollten Sie Ihre Dienste und Anwendungen auf mehrere Zonen und Regionen verteilen und replizieren. Konfigurieren Sie das System für automatisches Failover, damit die Dienste und Anwendungen bei Zonen- oder Regionsausfällen weiterhin verfügbar sind.
Behalten Sie den Status Ihrer Fehlerbereiche im Blick, um Probleme rechtzeitig zu erkennen und zu beheben.
Sie können den aktuellen Status der Google Cloud -Dienste in allen Regionen über das Google Cloud Service Health-Dashboard überwachen.
Sie können auch Vorfälle, die für Ihr Projekt relevant sind, mit Personalized Service Health anzeigen.
Mit Load Balancern können Sie den Zustand von Ressourcen erkennen und Traffic automatisch an fehlerfreie Backends weiterleiten. Weitere Informationen finden Sie unter Systemdiagnosen – Übersicht.
Failover-Szenarien testen
Simulieren Sie regelmäßig Fehler, um die Effektivität Ihrer Replikations- und Failover-Strategien zu prüfen.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2024-12-30 (UTC)."],[[["\u003cp\u003eThis content emphasizes the importance of resource redundancy in the Google Cloud Well-Architected Framework's reliability pillar, helping to prevent system failures.\u003c/p\u003e\n"],["\u003cp\u003eSystems should be designed to avoid single points of failure by replicating critical components across multiple machines, zones, and regions.\u003c/p\u003e\n"],["\u003cp\u003eTo achieve high availability, services and applications should be distributed across multiple zones and regions, with automatic failover mechanisms implemented for outages.\u003c/p\u003e\n"],["\u003cp\u003eIt is crucial to monitor failure domains and address any detected issues promptly, using tools like the Google Cloud Service Health dashboard.\u003c/p\u003e\n"],["\u003cp\u003eRegularly simulating failures, similar to a fire drill, is recommended to validate replication and failover strategies' effectiveness.\u003c/p\u003e\n"]]],[],null,["# Build highly available systems through resource redundancy\n\nThis principle in the reliability pillar of the\n[Google Cloud Well-Architected Framework](/architecture/framework)\nprovides recommendations to plan, build, and manage resource redundancy, which\ncan help you to avoid failures.\n\nThis principle is relevant to the *scoping*\n[focus area](/architecture/framework/reliability#focus-areas)\nof reliability.\n\nPrinciple overview\n------------------\n\nAfter you\n[decide the level of reliability](/architecture/framework/reliability/set-targets)\nthat you need, you must design your systems to avoid any\n[single points of failure](/architecture/infra-reliability-guide/design#avoid_single_points_of_failure).\nEvery critical component in the system must be replicated across multiple\nmachines, zones, and\n[regions](/docs/geography-and-regions#regions_and_zones).\nFor example, a critical database can't be located in only one region, and a\nmetadata server can't be deployed in only one single zone or region. In those\nexamples, if the sole zone or region has an outage, the system has a global\noutage.\n\nRecommendations\n---------------\n\nTo build redundant systems, consider the recommendations in the following\nsubsections.\n\n### Identify failure domains and replicate services\n\nMap out your system's\n[failure domains](/architecture/infra-reliability-guide/building-blocks),\nfrom individual VMs to regions, and design for redundancy across the failure\ndomains.\n\nTo ensure high availability, distribute and replicate your services and\napplications across multiple zones and regions. Configure the system for\nautomatic failover to make sure that the services and applications continue to\nbe available in the event of zone or region outages.\n\nFor examples of multi-zone and multi-region architectures, see\n[Design reliable infrastructure for your workloads in Google Cloud](/architecture/infra-reliability-guide/design#deployment_architectures).\n\n### Detect and address issues promptly\n\nContinuously track the status of your failure domains to detect and address\nissues promptly.\n\nYou can monitor the current status of Google Cloud services in all regions\nby using the\n[Google Cloud Service Health dashboard](https://status.cloud.google.com/).\nYou can also view incidents relevant to your project by using\n[Personalized Service Health](https://cloud.google.com/service-health).\nYou can use load balancers to detect resource health and automatically route\ntraffic to healthy backends. For more information, see\n[Health checks overview](/load-balancing/docs/health-check-concepts).\n\n### Test failover scenarios\n\nLike a fire drill, regularly simulate failures to validate the effectiveness of\nyour replication and failover strategies.\n\nFor more information, see\n[Simulate a zone outage for a regional MIG](/compute/docs/instance-groups/regional-mig-simulate-zonal-outage)\nand\n[Simulate a zone failure in GKE regional clusters](/kubernetes-engine/docs/tutorials/simulate-zone-failure)."]]