Dieses Dokument im Google Cloud Well-Architected Framework: FSI perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Erstellen, Bereitstellen und Ausführen robuster Arbeitslasten für die Finanzdienstleistungsbranche (Financial Services Industry, FSI) in Google Cloud. Mit diesen Empfehlungen können Sie grundlegende Elemente wie Beobachtbarkeit, Automatisierung und Skalierbarkeit einrichten. Die Empfehlungen in diesem Dokument entsprechen der Säule „Operative Exzellenz“ des Well-Architected Framework.
Operational Excellence ist für FSI-Arbeitslasten in Google Cloud aufgrund der stark regulierten und sensiblen Natur solcher Arbeitslasten von entscheidender Bedeutung. Operational Excellence sorgt dafür, dass sich Cloud-Lösungen an sich ändernde Anforderungen anpassen lassen und Ihre Anforderungen an Wert, Leistung, Sicherheit und Zuverlässigkeit erfüllen. Fehler in diesen Bereichen können zu erheblichen finanziellen Verlusten, behördlichen Strafen und Rufschädigung führen.
Operational Excellence bietet die folgenden Vorteile für Arbeitslasten von Finanzinstituten:
- Vertrauen und Reputation bewahren: Finanzinstitute sind stark auf das Vertrauen ihrer Kunden angewiesen. Betriebsstörungen oder Sicherheitsverletzungen können dieses Vertrauen erheblich untergraben und zu Kundenabwanderung führen. Operational Excellence trägt dazu bei, diese Risiken zu minimieren.
Strenge Compliance-Anforderungen erfüllen: Die Finanzdienstleistungsbranche unterliegt zahlreichen und komplexen Vorschriften, z. B.:
- EU-Datenschutz-Grundverordnung (DSGVO)
- EU Digital Operational Resilience Act (DORA)
- California Consumer Privacy Act (CCPA)
- Branchenspezifische Vorschriften
Robuste operative Prozesse, Monitoring und Vorfallmanagement sind unerlässlich, um die Einhaltung von Vorschriften nachzuweisen und Strafen zu vermeiden.
Geschäftskontinuität und Ausfallsicherheit gewährleisten: Finanzmärkte und ‑dienste sind oft rund um die Uhr in Betrieb. Daher sind Hochverfügbarkeit und eine effektive Notfallwiederherstellung von größter Bedeutung. Die Prinzipien der operativen Exzellenz leiten das Design und die Implementierung robuster Systeme. Weitere Informationen finden Sie im Zuverlässigkeits-Pfeiler.
Sensible Daten schützen: Finanzinstitute verarbeiten riesige Mengen an hochsensiblen Kunden- und Finanzdaten. Strenge operative Kontrollen, Sicherheitsüberwachung und schnelle Reaktion auf Vorfälle sind entscheidend, um Datenschutzverletzungen zu verhindern und den Datenschutz aufrechtzuerhalten. Weitere Informationen finden Sie im Sicherheitskonzept.
Leistung für kritische Anwendungen optimieren: Viele Finanzanwendungen wie Handelsplattformen und Echtzeitanalysen erfordern hohe Leistung und niedrige Latenz. Um diese Leistungsanforderungen zu erfüllen, benötigen Sie ein hochoptimiertes Design für Computing, Netzwerk und Speicher. Weitere Informationen finden Sie im Leistungsoptimierungspfeiler.
Kosten effektiv verwalten: Neben Sicherheit und Zuverlässigkeit ist für Finanzinstitute auch die Kosteneffizienz wichtig. Die operative Exzellenz umfasst Praktiken zur Optimierung der Ressourcenauslastung und zur Verwaltung von Cloud-Ausgaben. Weitere Informationen zu diesem Thema finden Sie im Pfeiler zur Kostenoptimierung.
Die Empfehlungen zur operativen Exzellenz in diesem Dokument sind den folgenden Kernprinzipien zugeordnet:
- SLAs und entsprechende SLOs und SLIs definieren
- Prozesse für das Vorfallmanagement definieren und testen
- Kontinuierlich verbessern und innovativ sein
SLAs und entsprechende SLOs und SLIs definieren
In vielen Finanzinstituten wird die Verfügbarkeit von Anwendungen in der Regel anhand der Messwerte Recovery Time Objective (RTO) und Recovery Point Objective (RPO) klassifiziert. Für geschäftskritische Anwendungen, die externe Kunden bedienen, kann auch ein Service Level Agreement (SLA) definiert werden.
Für SLAs ist ein Rahmen von Messwerten erforderlich, der das Verhalten des Systems aus Sicht der Nutzerzufriedenheit darstellt. Site Reliability Engineering (SRE) bietet eine Möglichkeit, das gewünschte Maß an Systemzuverlässigkeit zu erreichen. Beim Erstellen eines Messwert-Frameworks werden wichtige numerische Indikatoren definiert und überwacht, um den Systemstatus aus Nutzersicht zu verstehen. Messwerte wie Latenz und Fehlerraten geben beispielsweise Aufschluss darüber, wie gut ein Dienst funktioniert. Diese Messwerte werden als Service Level Indicators (SLIs) bezeichnet. Die Entwicklung effektiver SLIs ist entscheidend, da sie die Rohdaten liefern, die für eine objektive Bewertung der Zuverlässigkeit erforderlich sind.
Berücksichtigen Sie die folgenden Empfehlungen, um aussagekräftige SLAs, SLIs und SLOs zu definieren:
- Entwickeln und definieren Sie SLIs für jeden wichtigen Dienst. Legen Sie Zielwerte fest, die die akzeptablen Leistungsniveaus definieren.
- Entwickeln und definieren Sie die Service Level Objectives (SLOs), die den SLIs entsprechen. Ein SLO kann beispielsweise besagen, dass 99,9% der Anfragen eine Latenz von weniger als 200 Millisekunden aufweisen müssen.
- Legen Sie die internen Abhilfemaßnahmen fest, die ergriffen werden müssen, wenn ein Dienst die SLOs nicht erfüllt. Um beispielsweise die Stabilität der Plattform zu verbessern, müssen Sie möglicherweise Entwicklungsressourcen auf die Behebung von Problemen konzentrieren.
- Prüfen Sie die SLA-Anforderung für jeden Dienst und erkennen Sie das SLA als formalen Vertrag mit den Dienstnutzern an.
Beispiele für Servicelevels
Die folgende Tabelle enthält Beispiele für SLIs, SLOs und SLAs für eine Zahlungsplattform:
Unternehmensmesswert | SLI | SLO | SLA |
---|---|---|---|
Erfolg von Zahlungstransaktionen | Eine quantitative Messung des Prozentsatzes aller initiierten Zahlungsabwicklungstransaktionen, die erfolgreich verarbeitet und bestätigt werden. Beispiel: (Anzahl der erfolgreichen Transaktionen ÷ Gesamtzahl der gültigen Transaktionen) × 100, gemessen über ein gleitendes 5‑Minuten-Zeitfenster. |
Ein internes Ziel, um über einen bestimmten Zeitraum einen hohen Prozentsatz erfolgreicher Zahlungen zu erreichen. Beispiel: Halten Sie eine Erfolgsrate von 99, 98% für Zahlungen über einen fortlaufenden Zeitraum von 30 Tagen ein.Ungültige Anfragen und geplante Wartungsarbeiten sind dabei ausgeschlossen. |
Eine vertragliche Garantie für die Erfolgsquote und Geschwindigkeit der Verarbeitung von Zahlungs-Transaktionen. Beispiel: Der Dienstanbieter garantiert, dass 99,0 % der vom Kunden initiierten Zahlungsvorgänge innerhalb einer Sekunde erfolgreich verarbeitet und bestätigt werden. |
Latenz bei der Zahlungsabwicklung | Die durchschnittliche Zeit, die für die Verarbeitung einer Zahlungstransaktion von der Initiierung durch den Kunden bis zur endgültigen Bestätigung benötigt wird. Beispiel: Durchschnittliche Antwortzeit in Millisekunden für die Transaktionsbestätigung, gemessen über ein rollierendes 5‑Minuten-Fenster. |
Ein internes Ziel für die Geschwindigkeit, mit der Zahlungsvorgänge verarbeitet werden. Beispiel: Sorgen Sie dafür, dass 99,5% der Zahlungsvorgänge innerhalb eines rollierenden 30‑Tage-Zeitraums innerhalb von 400 Millisekunden verarbeitet werden. |
Eine vertragliche Verpflichtung, kritische Probleme bei der Zahlungsabwicklung innerhalb eines bestimmten Zeitrahmens zu beheben. Beispiel: Bei kritischen Problemen bei der Zahlungsabwicklung (definiert als Ausfall, der mehr als 1% der Transaktionen betrifft) verpflichtet sich der Dienstanbieter, das Problem innerhalb von zwei Stunden nach Meldung oder Erkennung zu beheben. |
Plattformverfügbarkeit | Der Prozentsatz der Zeit, in der die API für die Kernzahlungsverarbeitung und die Benutzeroberfläche betriebsbereit und für Clients zugänglich sind. Beispiel: (Gesamtbetriebszeit − Ausfallzeit) ÷ Gesamtbetriebszeit × 100, gemessen pro Minute. |
Ein internes Ziel für die Verfügbarkeit der zentralen Zahlungsplattform. Beispiel: Erreichen Sie eine Plattformverfügbarkeit von 99,995% pro Kalendermonat, ausgenommen geplante Wartungsfenster. |
Eine formelle, rechtsverbindliche Verpflichtung gegenüber Kunden in Bezug auf die Mindestverfügbarkeit der Zahlungsplattform, einschließlich der Folgen bei Nichteinhaltung. Beispiel: Die Plattform hat pro Kalendermonat eine Verfügbarkeit von mindestens 99,9 %, ausgenommen geplante Wartungsfenster. Wenn die Verfügbarkeit unter das Mindestniveau fällt, erhält der Kunde für jede Senkung um 0,1% eine Gutschrift in Höhe von 5% der monatlichen Servicegebühr. |
SLI-Daten verwenden, um zu überwachen, ob Systeme die definierten SLOs einhalten, und um sicherzustellen, dass die SLAs eingehalten werden. Mithilfe einer Reihe von genau definierten SLIs können Techniker und Entwickler FSI-Anwendungen auf den folgenden Ebenen überwachen:
- Direkt im Dienst, auf dem die Anwendungen bereitgestellt werden, z. B. GKE oder Cloud Run.
- Mithilfe von Logs, die von Infrastrukturkomponenten wie dem Load-Balancer bereitgestellt werden.
OpenTelemetry bietet einen Open-Source-Standard und eine Reihe von Technologien zum Erfassen aller Arten von Telemetriedaten, einschließlich Messwerten, Traces und Logs. Google Cloud Managed Service for Prometheus bietet ein vollständig verwaltetes, hochgradig skalierbares Backend für Messwerte und den Betrieb von Prometheus in großem Umfang.
Weitere Informationen zu SLI, SLO und Fehlerbudgets finden Sie im SRE-Handbuch.
Um effektive Benachrichtigungs- und Monitoring-Dashboards und ‑Mechanismen zu entwickeln, verwenden Sie Google Cloud Observability-Tools zusammen mit Google Cloud Monitoring. Informationen zu sicherheitsspezifischen Monitoring- und Erkennungsfunktionen finden Sie im Sicherheits-Pillar.
Prozesse für das Vorfallmanagement definieren und testen
Gut definierte und regelmäßig getestete Prozesse für das Incident-Management tragen direkt zum Wert, zur Leistung, zur Sicherheit und zur Zuverlässigkeit der Arbeitslasten für Finanzinstitute in Google Cloudbei. Diese Prozesse helfen Finanzinstituten, ihre strengen regulatorischen Anforderungen zu erfüllen, sensible Daten zu schützen, die Geschäftskontinuität aufrechtzuerhalten und das Vertrauen der Kunden zu wahren.
Regelmäßiges Testen der Prozesse für das Vorfallmanagement bietet folgende Vorteile:
- Leistung bei Spitzenlasten aufrechterhalten: Regelmäßige Leistungs- und Lasttests helfen Finanzinstituten, sicherzustellen, dass ihre cloudbasierten Anwendungen und Infrastrukturen Spitzenvolumina bei Transaktionen, Marktvolatilität und andere Szenarien mit hoher Nachfrage ohne Leistungseinbußen bewältigen können. Diese Funktion ist entscheidend, um ein nahtloses Nutzererlebnis zu gewährleisten und die Anforderungen der Finanzmärkte zu erfüllen.
- Potenzielle Engpässe und Einschränkungen erkennen: Bei Stresstests werden Systeme an ihre Grenzen gebracht. Finanzinstitute können so potenzielle Engpässe und Leistungseinschränkungen erkennen, bevor sie sich auf kritische Abläufe auswirken. Mit diesem proaktiven Ansatz können Finanzinstitute ihre Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit anpassen.
- Zuverlässigkeit und Ausfallsicherheit validieren: Regelmäßige Tests, einschließlich Chaos Engineering oder simulierter Fehler, tragen dazu bei, die Zuverlässigkeit und Ausfallsicherheit von Finanzsystemen zu validieren. Durch diese Tests wird sichergestellt, dass sich die Systeme nach Ausfällen problemlos wiederherstellen lassen und eine hohe Verfügbarkeit aufrechterhalten wird, was für die Geschäftskontinuität unerlässlich ist.
- Effektive Kapazitätsplanung: Leistungstests liefern wertvolle Daten zur Ressourcennutzung unter verschiedenen Lastbedingungen, was für eine genaue Kapazitätsplanung unerlässlich ist. Finanzinstitute können diese Daten nutzen, um den zukünftigen Kapazitätsbedarf proaktiv zu ermitteln und Leistungsprobleme aufgrund von Ressourcenbeschränkungen zu vermeiden.
- Neue Funktionen und Codeänderungen erfolgreich bereitstellen: Durch die Integration automatisierter Tests in CI/CD-Pipelines wird sichergestellt, dass Änderungen und neue Bereitstellungen gründlich validiert werden, bevor sie in Produktionsumgebungen veröffentlicht werden. Dieser Ansatz verringert das Risiko von Fehlern und Regressionen, die zu Betriebsunterbrechungen führen könnten, erheblich.
- Regulierungsanforderungen für Systemstabilität erfüllen: Finanzvorschriften erfordern oft, dass Institute robuste Testverfahren haben, um die Stabilität und Zuverlässigkeit ihrer kritischen Systeme zu gewährleisten. Regelmäßige Tests helfen, die Einhaltung dieser Anforderungen nachzuweisen.
Berücksichtigen Sie die folgenden Empfehlungen, um Ihre Prozesse für das Vorfallsmanagement zu definieren und zu testen.
Klare Verfahren für die Reaktion auf Vorfälle festlegen
Ein etabliertes Set von Verfahren zur Reaktion auf Vorfälle umfasst die folgenden Elemente:
- Rollen und Verantwortlichkeiten, die für Incident Commander, Ermittler, Kommunikatoren und technische Experten definiert sind, um eine effektive und koordinierte Reaktion zu gewährleisten.
- Kommunikationsprotokolle und Eskalierungswege, die definiert sind, um sicherzustellen, dass Informationen bei Vorfällen zeitnah und effektiv weitergegeben werden.
- Verfahren, die in einem Runbook oder Playbook dokumentiert sind, in dem die Schritte für Kommunikation, Triage, Untersuchung und Lösung beschrieben werden.
- Regelmäßige Schulungen und Vorbereitung, die Teams das Wissen und die Fähigkeiten vermitteln, um effektiv zu reagieren.
Regelmäßig Leistungs- und Lasttests durchführen
Regelmäßige Leistungs- und Lasttests tragen dazu bei, dass cloudbasierte Anwendungen und Infrastrukturen Spitzenlasten bewältigen und eine optimale Leistung aufrechterhalten können. Bei Lasttests werden realistische Traffic-Muster simuliert. Bei Stresstests wird das System bis an seine Grenzen belastet, um potenzielle Engpässe und Leistungseinschränkungen zu identifizieren. Mit Produkten wie Cloud Load Balancing und Lasttestdiensten können Sie realen Traffic simulieren. Anhand der Testergebnisse können Sie Ihre Cloud-Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit anpassen. Sie können beispielsweise die Ressourcenzuweisung anpassen oder Anwendungskonfigurationen optimieren.
Tests in CI/CD-Pipelines automatisieren
Wenn Sie automatisierte Tests in Ihre CI/CD-Pipelines einbinden, können Sie die Qualität und Zuverlässigkeit von Cloud-Anwendungen sicherstellen, indem Sie Änderungen vor der Bereitstellung validieren. Dieser Ansatz verringert das Risiko von Fehlern und Regressionen erheblich und hilft Ihnen, ein stabileres und robusteres Softwaresystem zu entwickeln. Sie können verschiedene Arten von Tests in Ihre CI/CD-Pipelines einbinden, darunter Unit-, Integrations- und End-to-End-Tests. Verwenden Sie Produkte wie Cloud Build und Cloud Deploy, um Ihre CI/CD-Pipelines zu erstellen und zu verwalten.
Kontinuierliche Verbesserung und Innovation
Bei Finanzdienstleistungsarbeitslasten in der Cloud ist die Migration in die Cloud nur der erste Schritt. Eine kontinuierliche Verbesserung und Innovation sind aus folgenden Gründen unerlässlich:
- Innovationen beschleunigen: Nutzen Sie neue Technologien wie KI, um Ihre Dienste zu verbessern.
- Kosten senken: Ineffizienzen beseitigen und die Ressourcennutzung optimieren.
- Agilität steigern: Schnell auf Markt- und Gesetzesänderungen reagieren
- Entscheidungsfindung verbessern: Mit Datenanalyseprodukten wie BigQuery und Looker können Sie fundierte Entscheidungen treffen.
Um kontinuierliche Verbesserungen und Innovationen zu ermöglichen, sollten Sie die folgenden Empfehlungen berücksichtigen.
Regelmäßige Retrospektiven durchführen
Retrospektiven sind unerlässlich, um die Verfahren zur Reaktion auf Vorfälle kontinuierlich zu verbessern und Teststrategien auf Grundlage der Ergebnisse regelmäßiger Leistungs- und Lasttests zu optimieren. Damit Retrospektiven effektiv sind, sollten Sie Folgendes beachten:
- Geben Sie Teams die Möglichkeit, über ihre Erfahrungen nachzudenken, herauszufinden, was gut gelaufen ist, und Bereiche zu identifizieren, die verbessert werden können.
- Führen Sie Retrospektiven nach Projektmeilensteinen, schwerwiegenden Vorfällen oder wichtigen Testzyklen durch. Teams können sowohl aus Erfolgen als auch aus Fehlern lernen und ihre Prozesse und Praktiken kontinuierlich optimieren.
- Verwenden Sie einen strukturierten Ansatz wie das Start-Stop-Continue-Modell, um sicherzustellen, dass die Retrospektiven produktiv sind und zu umsetzbaren Schritten führen.
- Nutzen Sie Retrospektiven, um Bereiche zu identifizieren, in denen die Automatisierung des Änderungsmanagements weiter verbessert werden kann, um die Zuverlässigkeit zu erhöhen und Risiken zu verringern.
Lernkultur fördern
Eine Lernkultur ermöglicht die sichere Erforschung neuer Technologien inGoogle Cloud, z. B. KI- und ML-Funktionen zur Verbesserung von Diensten wie Betrugserkennung und personalisierte Finanzberatung. So fördern Sie eine Lernkultur:
- Ermutigen Sie die Teams, zu experimentieren, Wissen zu teilen und kontinuierlich zu lernen.
- Führen Sie eine Kultur der Schuldlosigkeit ein, in der Fehler als Chancen für Wachstum und Verbesserung betrachtet werden.
- Schaffen Sie eine psychologisch sichere Umgebung, in der Teams Risiken eingehen und innovative Lösungen in Betracht ziehen können. Teams lernen sowohl aus Erfolgen als auch aus Misserfolgen, was zu einer widerstandsfähigeren und anpassungsfähigeren Organisation führt.
- Entwickeln Sie eine Kultur, die den Austausch von Wissen fördert, das aus Incident-Management-Prozessen und Tests gewonnen wurde.
Über Cloud-Technologien auf dem Laufenden bleiben
Kontinuierliches Lernen ist unerlässlich, um neue Sicherheitsmaßnahmen zu verstehen und zu implementieren, erweiterte Datenanalysen für bessere Erkenntnisse zu nutzen und innovative Lösungen einzuführen, die für die Finanzbranche relevant sind.
- Das Potenzial von Google Cloud -Diensten maximieren, indem Sie sich über die neuesten Entwicklungen, Funktionen und Best Practices auf dem Laufenden halten.
- Wenn neue Google Cloud Funktionen und Dienste eingeführt werden, sollten Sie nach Möglichkeiten suchen, Prozesse weiter zu automatisieren, die Sicherheit zu erhöhen und die Leistung und Skalierbarkeit Ihrer Anwendungen zu verbessern.
- Nehmen Sie an relevanten Konferenzen, Webinaren und Schulungen teil, um Ihr Wissen zu erweitern und neue Funktionen kennenzulernen.
- Ermutigen Sie Teammitglieder, Google Cloud Zertifizierungen zu erwerben, um sicherzustellen, dass die Organisation die erforderlichen Fähigkeiten für den Erfolg in der Cloud hat.