FSI-Perspektive: Zuverlässigkeit

Last reviewed 2025-07-28 UTC

Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Entwerfen, Bereitstellen und Betreiben zuverlässiger Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) inGoogle Cloud. In diesem Dokument wird erläutert, wie Sie erweiterte Zuverlässigkeitsverfahren und Beobachtbarkeit in Ihre Architekturpläne einbinden. Die Empfehlungen in diesem Dokument stimmen mit der Zuverlässigkeitssäule des Well-Architected Framework überein.

Für Finanzinstitute ist eine zuverlässige und robuste Infrastruktur sowohl eine geschäftliche Notwendigkeit als auch eine behördliche Anforderung. Damit FSI-Arbeitslasten inGoogle Cloud zuverlässig sind, müssen Sie potenzielle Fehlerquellen verstehen und minimieren, Ressourcen redundant bereitstellen und die Wiederherstellung planen. Betriebliche Resilienz ist ein Ergebnis von Zuverlässigkeit. Es geht darum, Störungen zu absorbieren, sich daran anzupassen und sich davon zu erholen. Die operative Resilienz hilft Finanzinstituten, strenge regulatorische Anforderungen zu erfüllen. Außerdem können Sie so unzumutbare Schäden für Kunden vermeiden.

Die wichtigsten Bausteine der Zuverlässigkeit in Google Cloud sind Regionen, Zonen und die verschiedenen Standortbereiche von Cloud-Ressourcen: zonal, regional, multiregional und global. Sie können die Verfügbarkeit verbessern, indem Sie verwaltete Dienste verwenden, Ressourcen verteilen, Muster für hohe Verfügbarkeit implementieren und Prozesse automatisieren.

Regulatorische Anforderungen

FSI-Organisationen unterliegen strengen Zuverlässigkeitsanforderungen von Aufsichtsbehörden wie dem Federal Reserve System in den USA, der European Banking Authority in der EU und der Prudential Regulation Authority im Vereinigten Königreich. Weltweit betonen Aufsichtsbehörden die operative Resilienz, die für die Finanzstabilität und den Verbraucherschutz von entscheidender Bedeutung ist. Die operative Stabilität ist die Fähigkeit, Störungen zu überstehen, sich effektiv zu erholen und kritische Dienste aufrechtzuerhalten. Dazu ist ein harmonisierter Ansatz für das Management von technologischen Risiken und Abhängigkeiten von Dritten erforderlich.

Die behördlichen Anforderungen in den meisten Gerichtsbarkeiten haben die folgenden gemeinsamen Themen:

  • Cybersicherheit und technologische Resilienz: Stärkung der Abwehr gegen Cyberbedrohungen und Sicherstellung der Resilienz von IT-Systemen.
  • Risikomanagement von Drittanbietern: Verwalten der Risiken, die mit der Auslagerung von Diensten an Anbieter von Informations- und Kommunikationstechnologie (IKT) verbunden sind.
  • Geschäftskontinuität und Reaktion auf Vorfälle: Solide Planung zur Aufrechterhaltung kritischer Abläufe bei Störungen und zur effektiven Wiederherstellung.
  • Finanzstabilität schützen: Sicherstellung der Solidität und Stabilität des gesamten Finanzsystems.

Die Empfehlungen zur Zuverlässigkeit in diesem Dokument sind den folgenden Grundprinzipien zugeordnet:

Bereitstellungen in mehreren Zonen und Regionen priorisieren

Für kritische Anwendungen für Finanzdienstleistungen empfehlen wir, eine Multi-Region-Topologie zu verwenden, die auf mindestens zwei Regionen und auf drei Zonen in jeder Region verteilt ist. Dieser Ansatz ist wichtig, um die Resilienz gegenüber Zonen- und Regionsausfällen zu erhöhen. Dieser Ansatz ist oft gesetzlich vorgeschrieben, da die meisten Gerichtsbarkeiten einen schweren Ausfall in einer zweiten Zone als plausible Folge eines Ausfalls in einer Zone oder Region betrachten. Der Grund dafür ist, dass der andere Standort bei einem Ausfall eines Standorts möglicherweise eine außergewöhnlich hohe Menge an zusätzlichem Traffic empfängt.

Beachten Sie die folgenden Empfehlungen, um die Resilienz gegen Ausfälle von Zonen und Regionen zu erhöhen:

  • Bevorzuge Ressourcen mit einem größeren geografischen Geltungsbereich. Verwenden Sie nach Möglichkeit regionale statt zonale Ressourcen und multiregionale oder globale Ressourcen statt regionaler Ressourcen. Dieser Ansatz hilft, die Notwendigkeit zu vermeiden, Vorgänge mithilfe von Sicherungen wiederherzustellen.
  • Verwenden Sie in jeder Region drei Zonen anstelle von zwei. Um Failover zu bewältigen, sollten Sie die Kapazität um ein Drittel über dem Schätzwert bereitstellen.
  • Minimieren Sie manuelle Wiederherstellungsschritte, indem Sie Active-Active-Bereitstellungen wie in den folgenden Beispielen implementieren:
    • Verteilte Datenbanken wie Spanner bieten integrierte Redundanz und Synchronisierung über Regionen hinweg.
    • Die HA-Funktion von Cloud SQL bietet eine Topologie, die nahezu aktiv-aktiv ist, mit zonenübergreifenden Lesereplikaten. Es bietet ein Recovery Point Objective (RPO) zwischen Regionen, das nahe 0 liegt.
  • Verteilen Sie den Nutzer-Traffic mithilfe von Cloud DNS auf Regionen und stellen Sie in jeder Region einen regionalen Load Balancer bereit. Ein globaler Load-Balancer ist eine weitere Option, die Sie je nach Ihren Anforderungen und der Kritikalität in Betracht ziehen können. Weitere Informationen finden Sie unter Vorteile und Risiken des globalen Load-Balancings für multiregionale Bereitstellungen.
  • Verwenden Sie zum Speichern von Daten multiregionale Dienste wie Cloud Spanner und Cloud Storage.

Single Points of Failure beseitigen

Verteilen Sie Ressourcen auf verschiedene Standorte und verwenden Sie redundante Ressourcen, um zu verhindern, dass sich ein Single Point of Failure (SPOF) auf den gesamten Anwendungs-Stack auswirkt.

Beachten Sie die folgenden Empfehlungen, um SPOFs zu vermeiden:

  • Stellen Sie nicht nur einen einzelnen Anwendungsserver oder eine einzelne Datenbank bereit.
  • Sorgen Sie für die automatische Neuerstellung fehlgeschlagener VMs, indem Sie verwaltete Instanzgruppen (MIGs) verwenden.
  • Verteilen Sie den Traffic gleichmäßig auf die verfügbaren Ressourcen, indem Sie Load-Balancing implementieren.
  • Verwenden Sie HA-Konfigurationen für Datenbanken wie Cloud SQL.
  • Die Datenverfügbarkeit mit regionalen nichtflüchtigen Speichern mit synchroner Replikation verbessern

Weitere Informationen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.

Aggregierte Verfügbarkeit verstehen und verwalten

Die Gesamt- oder aggregierte Verfügbarkeit eines Systems wird durch die Verfügbarkeit jeder Ebene oder Komponente des Systems beeinflusst. Die Anzahl der Ebenen in einem Anwendungsstack hat eine umgekehrte Beziehung zur aggregierten Verfügbarkeit des Stacks. Beachten Sie die folgenden Empfehlungen für die Verwaltung der aggregierten Verfügbarkeit:

  • Berechnen Sie die aggregierte Verfügbarkeit eines mehrschichtigen Stacks mit der Formel tier1_availability × tier2_availability × tierN_availability.

    Das folgende Diagramm zeigt die Berechnung der aggregierten Verfügbarkeit für ein mehrschichtiges System, das aus vier Diensten besteht:

    Die Formel für die aggregierte Verfügbarkeit für einen mehrstufigen Dienst mit vier Diensten.

    Im vorherigen Diagramm bietet der Dienst in jeder Ebene eine Verfügbarkeit von 99,9 %, die aggregierte Verfügbarkeit des Systems ist jedoch mit 99,6% (0,999 × 0,999 × 0,999 × 0,999) niedriger. Im Allgemeinen ist die aggregierte Verfügbarkeit eines mehrstufigen Stacks geringer als die Verfügbarkeit der Stufe mit der geringsten Verfügbarkeit.

  • Wählen Sie nach Möglichkeit Parallelisierung statt Verkettung. Bei parallelisierten Diensten ist die End-to-End-Verfügbarkeit höher als die Verfügbarkeit der einzelnen Dienste.

    Das folgende Diagramm zeigt zwei Dienste, A und B, die mit den Ansätzen für Verkettung und Parallelisierung bereitgestellt werden:

    Die aggregierten Verfügbarkeitsformeln für verkettete Dienste im Vergleich zu parallelisierten Diensten.

    In den vorherigen Beispielen haben beide Dienste ein SLA von 99%, was je nach Implementierungsansatz zu der folgenden aggregierten Verfügbarkeit führt:

    • Verkettete Dienste ergeben eine aggregierte Verfügbarkeit von nur 98% (0,99 × 0,99).
    • Parallele Dienste bieten eine höhere aggregierte Verfügbarkeit von 99,99 %, da jeder Dienst unabhängig ausgeführt wird und einzelne Dienste nicht von der Verfügbarkeit der anderen Dienste betroffen sind. Die Formel für aggregierte parallelisierte Dienste lautet 1 − (1 − A) × (1 − B).
  • Wählen Sie Google Cloud Dienste mit Uptime-SLAs aus, die dazu beitragen können, die erforderliche Gesamt-Uptime für Ihren Anwendungsstack zu erreichen.

  • Berücksichtigen Sie beim Entwerfen Ihrer Architektur die Kompromisse zwischen Verfügbarkeit, Betriebskomplexität, Latenz und Kosten. Eine höhere Anzahl von Neunen für die Verfügbarkeit kostet in der Regel mehr, hilft Ihnen aber, behördliche Anforderungen zu erfüllen.

    Eine Verfügbarkeit von 99, 9 % (drei Neunen) bedeutet beispielsweise eine potenzielle Ausfallzeit von 86 Sekunden pro Tag. Im Gegensatz dazu bedeutet eine Verfügbarkeit von 99 % (zwei Neunen) eine Ausfallzeit von 864 Sekunden im selben Zeitraum, was zehnmal mehr Ausfallzeit ist als bei einer Verfügbarkeit von 99, 9 %.

    Bei kritischen Finanzdienstleistungen sind die Architekturoptionen möglicherweise eingeschränkt. Es ist jedoch wichtig, die Verfügbarkeitsanforderungen zu ermitteln und die Verfügbarkeit genau zu berechnen. Eine solche Bewertung hilft Ihnen, die Auswirkungen Ihrer Designentscheidungen auf Ihre Architektur und Ihr Budget zu beurteilen.

Robuste Strategie zur Notfallwiederherstellung implementieren

Erstellen Sie gut definierte Pläne für verschiedene Notfallszenarien, einschließlich Ausfällen von Zonen und Regionen. Mit einer gut definierten Strategie zur Notfallwiederherstellung (Disaster Recovery, DR) können Sie sich von einer Störung erholen und den normalen Betrieb mit minimalen Auswirkungen wieder aufnehmen.

Notfallwiederherstellung und Hochverfügbarkeit sind unterschiedliche Konzepte. Bei Cloud-Bereitstellungen gilt DR in der Regel für multiregionale Bereitstellungen und HA für regionale Bereitstellungen. Diese Bereitstellungsarchetypen unterstützen verschiedene Replikationsmechanismen.

  • HA: Viele verwaltete Dienste bieten standardmäßig eine synchrone Replikation zwischen Zonen innerhalb einer einzelnen Region. Solche Dienste unterstützen ein Recovery Time Objective (RTO) und ein Recovery Point Objective (RPO) von null oder nahezu null. Diese Unterstützung ermöglicht es Ihnen, eine Aktiv-Aktiv-Bereitstellungstopologie ohne SPOF zu erstellen.
  • DR: Für Arbeitslasten, die in zwei oder mehr Regionen bereitgestellt werden, müssen Sie eine Replikationsstrategie definieren, wenn Sie keine multiregionalen oder globalen Dienste verwenden. Die Replikationsstrategie ist in der Regel asynchron. Bewerten Sie sorgfältig, wie sich die Replikation auf die RTO und RPO für kritische Anwendungen auswirkt. Ermitteln Sie die manuellen oder halbautomatischen Vorgänge, die für das Failover erforderlich sind.

Für Finanzinstitute kann die Auswahl der Failover-Region durch Vorschriften zur Datenhoheit und zum Datenstandort eingeschränkt sein. Wenn Sie eine Active-Active-Topologie über zwei Regionen hinweg benötigen, empfehlen wir die Verwendung verwalteter multiregionaler Dienste wie Spanner und Cloud Storage, insbesondere wenn die Datenreplikation von entscheidender Bedeutung ist.

Beachten Sie die folgenden Empfehlungen:

  • Verwenden Sie verwaltete multiregionale Speicherdienste für Daten.
  • Erstellen Sie Snapshots von Daten auf nichtflüchtigen Speichern und speichern Sie die Snapshots an multiregionalen Standorten.
  • Wenn Sie regionale oder zonale Ressourcen verwenden, richten Sie die Datenreplikation in andere Regionen ein.
  • Testen Sie den DR-Plan regelmäßig, um seine Effektivität zu prüfen.
  • Berücksichtigen Sie RTO und RPO und deren Zusammenhang mit der durch Finanzvorschriften in Ihrer Gerichtsbarkeit festgelegten Toleranz für Auswirkungen.

Weitere Informationen finden Sie unter Architektur der Notfallwiederherstellung bei Ausfällen der Cloud-Infrastruktur.

Verwaltete Dienste nutzen

Verwenden Sie nach Möglichkeit verwaltete Dienste, um die integrierten Funktionen für Sicherungen, Hochverfügbarkeit und Skalierbarkeit zu nutzen. Beachten Sie die folgenden Empfehlungen für die Verwendung verwalteter Dienste:

  • Verwenden Sie verwaltete Dienste in Google Cloud. Sie bieten Hochverfügbarkeit, die durch SLAs abgedeckt ist. Außerdem bieten sie integrierte Sicherungsmechanismen und Funktionen zur Ausfallsicherheit.
  • Für die Datenverwaltung empfehlen sich Dienste wie Cloud SQL, Cloud Storage und Spanner.
  • Für Compute- und Anwendungshosting sollten Sie verwaltete Instanzgruppen (MIGs) von Compute Engine und Google Kubernetes Engine-Cluster (GKE) in Betracht ziehen. Regionale MIGs und regionale GKE-Cluster sind gegen Zonenausfälle resistent.
  • Verwenden Sie verwaltete multiregionale Dienste, um die Ausfallsicherheit bei regionalen Ausfällen zu verbessern.
  • Ermitteln Sie den Bedarf an Ausstiegsplänen für Dienste mit besonderen Merkmalen und definieren Sie die erforderlichen Pläne. Finanzaufsichtsbehörden wie FCA, PRA und EBA verlangen von Unternehmen Strategien und Notfallpläne für den Datenabruf und die Betriebskontinuität, wenn die Beziehung zu einem Cloud-Anbieter endet. Unternehmen müssen die Machbarkeit des Ausstiegs bewerten, bevor sie Cloud-Verträge abschließen, und sie müssen die Möglichkeit haben, den Anbieter ohne Betriebsunterbrechung zu wechseln.
  • Prüfen Sie, ob die von Ihnen ausgewählten Dienste den Export von Daten in ein offenes Format wie CSV, Parquet und Avro unterstützen. Prüfen Sie, ob die Dienste auf offenen Technologien basieren, z. B. GKE-Unterstützung für das OCI-Format (Open Container Initiative) oder Cloud Composer, das auf Apache Airflow basiert.

Infrastrukturbereitstellung und ‑wiederherstellung automatisieren

Automatisierung trägt dazu bei, menschliche Fehler zu minimieren und den Zeit- und Ressourcenaufwand für die Reaktion auf Vorfälle zu reduzieren. Durch den Einsatz von Automatisierung kann die Wiederherstellung nach Fehlern beschleunigt und die Ergebnisse konsistenter werden. Beachten Sie die folgenden Empfehlungen, um die Bereitstellung und Wiederherstellung von Ressourcen zu automatisieren:

  • Minimieren Sie menschliche Fehler, indem Sie IaC-Tools (Infrastruktur als Code) wie Terraform verwenden.
  • Reduzieren Sie manuelle Eingriffe durch die Automatisierung von Failover-Prozessen. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Fehlern zu verringern. Sie können beispielsweise Eventarc oder Workflows verwenden, um automatisch Abhilfemaßnahmen als Reaktion auf Probleme auszulösen, die in Audit-Logs beobachtet werden.
  • Erhöhen Sie die Kapazität Ihrer Cloud-Ressourcen während des Failovers mithilfe von Autoscaling.
  • Wenden Sie Richtlinien und Schutzmaßnahmen für behördliche Anforderungen bei der Bereitstellung von Diensten in Ihrer Cloud-Topologie automatisch an, indem Sie Platform Engineering einsetzen.