Perspective FSI : excellence opérationnelle

Last reviewed 2025-07-28 UTC

Ce document du Google Cloud Well-Architected Framework : perspective FSI présente les principes et les recommandations pour créer, déployer et exploiter des charges de travail robustes du secteur des services financiers (FSI) dans Google Cloud. Ces recommandations vous aident à configurer des éléments fondamentaux tels que l'observabilité, l'automatisation et l'évolutivité. Les recommandations de ce document sont conformes au pilier d'excellence opérationnelle du framework Well-Architected.

L'excellence opérationnelle est essentielle pour les charges de travail FSI dans Google Cloud en raison de la nature très réglementée et sensible de ces charges de travail. L'excellence opérationnelle garantit que les solutions cloud peuvent s'adapter aux besoins en constante évolution et répondre à vos exigences en termes de valeur, de performances, de sécurité et de fiabilité. Les échecs dans ces domaines peuvent entraîner des pertes financières importantes, des sanctions réglementaires et une atteinte à la réputation.

L'excellence opérationnelle offre les avantages suivants pour les charges de travail des services financiers :

  • Préserver la confiance et la réputation : les établissements financiers dépendent fortement de la confiance de leurs clients. Les perturbations opérationnelles ou les failles de sécurité peuvent sérieusement ébranler cette confiance et entraîner une perte de clients. L'excellence opérationnelle permet de minimiser ces risques.
  • Respecter des exigences de conformité réglementaires strictes : le secteur des services financiers est soumis à de nombreuses réglementations complexes, telles que les suivantes :

    Des processus opérationnels, une surveillance et une gestion des incidents robustes sont essentiels pour démontrer la conformité aux réglementations et éviter les sanctions.

  • Assurez la continuité et la résilience de votre activité : les marchés et services financiers fonctionnent souvent en continu. La haute disponibilité et une reprise après sinistre efficace sont donc primordiales. Les principes d'excellence opérationnelle guident la conception et l'implémentation de systèmes résilients. Le pilier de fiabilité fournit plus d'informations à ce sujet.

  • Protégez les données sensibles : les établissements financiers traitent d'énormes quantités de données financières et client très sensibles. Des contrôles opérationnels stricts, une surveillance de la sécurité et une réponse rapide aux incidents sont essentiels pour prévenir les fuites de données et préserver la confidentialité. Le pilier de sécurité fournit plus de conseils dans ce domaine.

  • Optimisez les performances des applications critiques : de nombreuses applications financières, telles que les plates-formes de trading et les analyses en temps réel, exigent des performances élevées et une faible latence. Pour répondre à ces exigences de performances, vous avez besoin d'une conception de calcul, de mise en réseau et de stockage hautement optimisée. Le pilier de l'optimisation des performances fournit des conseils supplémentaires dans ce domaine.

  • Gérer efficacement les coûts : en plus de la sécurité et de la fiabilité, les institutions financières se soucient également de la rentabilité. L'excellence opérationnelle inclut des pratiques permettant d'optimiser l'utilisation des ressources et de gérer les dépenses liées au cloud. Le pilier d'optimisation des coûts fournit plus de conseils dans ce domaine.

Les recommandations d'excellence opérationnelle de ce document sont associées aux principes de base suivants :

Définir des SLA et les SLO et SLI correspondants

Dans de nombreuses organisations du secteur des services financiers, la disponibilité des applications est généralement classée en fonction des métriques objectif de temps de récupération (RTO) et objectif de point de récupération (RPO). Pour les applications critiques pour l'entreprise qui s'adressent à des clients externes, un contrat de niveau de service (SLA) peut également être défini.

Les SLA ont besoin d'un framework de métriques qui représente le comportement du système du point de vue de la satisfaction des utilisateurs. Les pratiques d'ingénierie de la fiabilité des sites (SRE) vous permettent d'atteindre le niveau de fiabilité du système souhaité. Pour créer un framework de métriques, vous devez définir et surveiller des indicateurs numériques clés afin de comprendre l'état du système du point de vue de l'utilisateur. Par exemple, les métriques telles que la latence et les taux d'erreur quantifient les performances d'un service. Ces métriques sont appelées indicateurs de niveau de service (SLI). Il est essentiel de développer des SLI efficaces, car ils fournissent les données brutes nécessaires pour évaluer objectivement la fiabilité.

Pour définir des SLA, des SLI et des SLO pertinents, tenez compte des recommandations suivantes :

  • Développez et définissez des SLI pour chaque service critique. Définissez des valeurs cibles qui définissent les niveaux de performances acceptables.
  • Développez et définissez les objectifs de niveau de service (SLO) qui correspondent aux SLI. Par exemple, un SLO peut indiquer que 99,9 % des requêtes doivent avoir une latence inférieure à 200 millisecondes.
  • Identifiez les actions correctives internes à entreprendre si un service ne respecte pas les SLO. Par exemple, pour améliorer la résilience de la plate-forme, vous devrez peut-être concentrer les ressources de développement sur la résolution des problèmes.
  • Validez les exigences du SLA pour chaque service et reconnaissez le SLA comme le contrat formel avec les utilisateurs du service.

Exemples de niveaux de service

Le tableau ci-dessous fournit des exemples de SLI, de SLO et de SLA pour une plate-forme de paiement :

Métriques commerciales SLI SLO Contrat de niveau de service
Réussite de l'opération de paiement

Mesure quantitative du pourcentage de toutes les transactions de paiement initiées qui ont été traitées et confirmées avec succès.

Exemple : (nombre de transactions réussies ÷ nombre total de transactions valides) × 100, mesuré sur une période de cinq minutes.

Objectif interne visant à maintenir un pourcentage élevé de transactions de paiement réussies sur une période spécifique.

Exemple : Maintenir un taux de réussite des transactions de paiement de 99,98 % sur une période glissante de 30 jours, à l'exclusion des demandes non valides et de la maintenance planifiée.

Garantie contractuelle du taux de réussite et de la vitesse de traitement des transactions de paiement.

Exemple : Le fournisseur de services garantit que 99 % des transactions de paiement initiées par le client seront traitées et confirmées avec succès en une seconde.

Latence de traitement des paiements

Temps moyen nécessaire au traitement d'une transaction de paiement, de l'initiation par le client à la confirmation finale.

Exemple : Temps de réponse moyen en millisecondes pour la confirmation d'une transaction, mesuré sur une période glissante de cinq minutes.

Cible interne pour la vitesse à laquelle les transactions de paiement sont traitées.

Exemple : Assurez-vous que 99,5 % des transactions de paiement sont traitées en moins de 400 millisecondes sur une période glissante de 30 jours.

Engagement contractuel à résoudre les problèmes critiques de traitement des paiements dans un délai spécifié.

Exemple : En cas de problème critique de traitement des paiements (défini comme une panne affectant plus de 1 % des transactions), le fournisseur de services s'engage à le résoudre dans les deux heures suivant le moment où il a été signalé ou détecté.

Disponibilité de la plate-forme

Pourcentage de temps pendant lequel l'API de traitement des paiements et l'interface utilisateur principales sont opérationnelles et accessibles aux clients.

Exemple : (temps de fonctionnement total − temps d'arrêt) / temps de fonctionnement total × 100, mesuré par minute.

Cible interne pour la disponibilité de la plate-forme de paiement principale.

Exemple : Atteignez une disponibilité de la plate-forme de 99,995 % par mois calendaire, à l'exclusion des périodes de maintenance planifiées.

Engagement formel et juridiquement contraignant envers les clients concernant la disponibilité minimale de la plate-forme de paiement, y compris les conséquences en cas de non-respect.

Exemple : La plate-forme maintiendra une disponibilité minimale de 99,9 % par mois calendaire, à l'exclusion des périodes de maintenance planifiées. Si la disponibilité tombe en dessous du niveau minimal, le client recevra un avoir de service de 5 % des frais de service mensuels pour chaque baisse de 0,1 %.

Utilisez les données SLI pour vérifier si les systèmes respectent les SLO définis et pour vous assurer que les SLA sont respectés. En utilisant un ensemble de SLI bien définis, les ingénieurs et les développeurs peuvent surveiller les applications FSI aux niveaux suivants :

  • Directement dans le service sur lequel les applications sont déployées, comme GKE ou Cloud Run.
  • En utilisant les journaux fournis par les composants d'infrastructure, tels que l'équilibreur de charge.

OpenTelemetry fournit une norme Open Source et un ensemble de technologies permettant de capturer tous les types de données de télémétrie, y compris les métriques, les traces et les journaux. Google Cloud Managed Service pour Prometheus fournit un backend entièrement géré et hautement évolutif pour les métriques et le fonctionnement de Prometheus à grande échelle.

Pour en savoir plus sur les SLI, les SLO et les marges d'erreur, consultez le manuel SRE.

Pour développer des tableaux de bord et des mécanismes d'alerte et de surveillance efficaces, utilisez les outils Google Cloud Observability avec Google Cloud  Monitoring. Pour en savoir plus sur les fonctionnalités de surveillance et de détection spécifiques à la sécurité, consultez le pilier de sécurité.

Définir et tester les processus de gestion des incidents

Des processus de gestion des incidents bien définis et régulièrement testés contribuent directement à la valeur, aux performances, à la sécurité et à la fiabilité des charges de travail FSI dans Google Cloud. Ces processus aident les institutions financières à répondre à leurs exigences réglementaires strictes, à protéger les données sensibles, à assurer la continuité des activités et à préserver la confiance des clients.

Tester régulièrement les processus de gestion des incidents présente les avantages suivants :

  • Maintenir les performances en cas de pics de charge : des tests réguliers de performances et de charge aident les institutions financières à s'assurer que leurs applications et infrastructures basées dans le cloud peuvent gérer les pics de volume de transactions, la volatilité du marché et d'autres scénarios à forte demande sans dégradation des performances. Cette fonctionnalité est essentielle pour maintenir une expérience utilisateur fluide et répondre aux exigences des marchés financiers.
  • Identifier les goulots d'étranglement et les limites potentielles : les tests de résistance poussent les systèmes à leurs limites et permettent aux institutions financières d'identifier les goulots d'étranglement et les limites de performances potentielles avant qu'ils n'affectent les opérations critiques. Cette approche proactive permet aux institutions financières d'ajuster leur infrastructure et leurs applications pour optimiser leurs performances et leur évolutivité.
  • Valider la fiabilité et la résilience : des tests réguliers, y compris l'ingénierie du chaos ou les simulations de défaillances, permettent de valider la fiabilité et la résilience des systèmes financiers. Ces tests permettent de s'assurer que les systèmes peuvent se rétablir correctement en cas de défaillance et maintenir une haute disponibilité, ce qui est essentiel pour la continuité des activités.
  • Planifiez efficacement votre capacité : les tests de performances fournissent des données précieuses sur l'utilisation des ressources dans différentes conditions de charge, ce qui est essentiel pour une planification précise de la capacité. Les établissements financiers peuvent utiliser ces données pour anticiper de manière proactive les futurs besoins en capacité et éviter les problèmes de performances dus à des contraintes de ressources.
  • Déployer de nouvelles fonctionnalités et des modifications de code avec succès : l'intégration de tests automatisés dans les pipelines CI/CD permet de s'assurer que les modifications et les nouveaux déploiements sont minutieusement validés avant d'être déployés dans les environnements de production. Cette approche réduit considérablement le risque d'erreurs et de régressions pouvant entraîner des perturbations opérationnelles.
  • Respecter les exigences réglementaires concernant la stabilité du système : les réglementations financières exigent souvent des institutions qu'elles mettent en place des pratiques de test robustes pour garantir la stabilité et la fiabilité de leurs systèmes critiques. Des tests réguliers permettent de démontrer la conformité avec ces exigences.

Pour définir et tester vos processus de gestion des incidents, tenez compte des recommandations suivantes.

Définissez des procédures claires de réponse aux incidents.

Un ensemble bien établi de procédures de réponse aux incidents implique les éléments suivants :

  • Rôles et responsabilités définis pour les responsables des incidents, les enquêteurs, les responsables de la communication et les experts techniques afin de garantir une réponse efficace et coordonnée.
  • Protocoles de communication et procédures d'escalade définis pour garantir le partage rapide et efficace des informations lors des incidents.
  • Procédures documentées dans un runbook ou un playbook qui décrit les étapes de communication, de tri, d'investigation et de résolution.
  • Une formation et une préparation régulières qui permettent aux équipes d'acquérir les connaissances et les compétences nécessaires pour répondre efficacement aux incidents.

Effectuez régulièrement des tests de performances et de charge.

Des tests de performances et de charge réguliers permettent de s'assurer que les applications et l'infrastructure basées sur le cloud peuvent gérer les pics de charge et maintenir des performances optimales. Les tests de charge simulent des modèles de trafic réalistes. Les tests de charge sollicitent le système jusqu'à ses limites pour identifier les goulots d'étranglement et les limites de performances potentiels. Vous pouvez utiliser des produits tels que Cloud Load Balancing et des services de test de charge pour simuler le trafic réel. En fonction des résultats du test, vous pouvez ajuster votre infrastructure cloud et vos applications pour optimiser les performances et la scalabilité. Par exemple, vous pouvez ajuster l'allocation de ressources ou configurer les applications.

Automatiser les tests dans les pipelines CI/CD

L'intégration de tests automatisés dans vos pipelines CI/CD permet de garantir la qualité et la fiabilité des applications cloud en validant les modifications avant le déploiement. Cette approche réduit considérablement le risque d'erreurs et de régressions, et vous aide à créer un système logiciel plus stable et robuste. Vous pouvez intégrer différents types de tests dans vos pipelines CI/CD, y compris des tests unitaires, des tests d'intégration et des tests de bout en bout. Utilisez des produits tels que Cloud Build et Cloud Deploy pour créer et gérer vos pipelines CI/CD.

Améliorer et innover en permanence

Pour les charges de travail des services financiers dans le cloud, la migration vers le cloud n'est que la première étape. Il est essentiel d'améliorer et d'innover en permanence pour les raisons suivantes :

  • Accélérez l'innovation : profitez des nouvelles technologies comme l'IA pour améliorer vos services.
  • Réduire les coûts : éliminez les inefficacités et optimisez l'utilisation des ressources.
  • Améliorer l'agilité : s'adapter rapidement aux évolutions du marché et de la réglementation
  • Améliorer la prise de décision : utilisez des produits d'analyse de données tels que BigQuery et Looker pour faire des choix éclairés.

Pour assurer une amélioration et une innovation continues, tenez compte des recommandations suivantes.

Mener des rétrospectives régulières

Les rétrospectives sont essentielles pour améliorer en continu les procédures de gestion des incidents et pour optimiser les stratégies de test en fonction des résultats des tests de performances et de charge réguliers. Pour que les rétrospectives soient efficaces, procédez comme suit :

  • Donnez aux équipes l'occasion de réfléchir à leurs expériences, d'identifier ce qui a bien fonctionné et de repérer les points à améliorer.
  • Organisez des rétrospectives après les étapes clés d'un projet, les incidents majeurs ou les cycles de tests importants. Les équipes peuvent tirer des enseignements de leurs réussites et de leurs échecs, et affiner en continu leurs processus et leurs pratiques.
  • Utilisez une approche structurée comme le modèle start-stop-continue pour vous assurer que les sessions rétrospectives sont productives et mènent à des étapes concrètes.
  • Utilisez des rétrospectives pour identifier les domaines dans lesquels l'automatisation de la gestion des modifications peut être améliorée afin d'accroître la fiabilité et de réduire les risques.

Entretenir une culture de l'apprentissage

Une culture de l'apprentissage facilite l'exploration sécurisée de nouvelles technologies dansGoogle Cloud, telles que les fonctionnalités d'IA et de ML pour améliorer des services comme la détection des fraudes et les conseils financiers personnalisés. Pour promouvoir une culture de l'apprentissage :

  • Encouragez les équipes à faire des tests, à partager leurs connaissances et à apprendre en continu.
  • Adoptez une culture de l'irréprochabilité, où les échecs sont considérés comme des opportunités de croissance et d'amélioration.
  • Créez un environnement psychologiquement sûr qui permet aux équipes de prendre des risques et d'envisager des solutions innovantes. Les équipes tirent des leçons de leurs réussites et de leurs échecs, ce qui permet à l'organisation de devenir plus résiliente et adaptable.
  • Développez une culture qui facilite le partage des connaissances acquises grâce aux processus de gestion des incidents et aux exercices de test.

Se tenir informé des technologies cloud

L'apprentissage continu est essentiel pour comprendre et mettre en œuvre de nouvelles mesures de sécurité, exploiter l'analyse avancée des données pour obtenir de meilleurs insights et adopter des solutions innovantes adaptées au secteur financier.

  • Maximisez le potentiel des services Google Cloud en vous tenant informé des dernières avancées, fonctionnalités et bonnes pratiques.
  • Lorsque de nouvelles fonctionnalités et de nouveaux services Google Cloud sont introduits, identifiez les opportunités pour automatiser davantage les processus, renforcer la sécurité et améliorer les performances et l'évolutivité de vos applications.
  • Participez à des conférences, des webinaires et des sessions de formation pertinents pour élargir vos connaissances et comprendre les nouvelles fonctionnalités.
  • Encouragez les membres de l'équipe à obtenir des Google Cloud certifications pour vous assurer que l'organisation dispose des compétences nécessaires pour réussir dans le cloud.