Cette page a été traduite par l'API Cloud Translation.

Well-Architected Framework: pilier de fiabilité

Last reviewed 2024-12-30 UTC

Le pilier de fiabilité du Google Cloud Well-Architected Framework fournit des principes et des recommandations pour vous aider à concevoir, déployer et gérer des charges de travail fiables dans Google Cloud.

Ce document est destiné aux architectes cloud, aux développeurs, aux ingénieurs de plate-forme, aux administrateurs et aux ingénieurs en fiabilité des sites.

La fiabilité est la capacité d'un système à exécuter de manière cohérente les fonctions prévues dans les conditions définies et à maintenir un service ininterrompu. Les bonnes pratiques en matière de fiabilité incluent la redondance, la conception tolérante aux pannes, la surveillance et les processus de récupération automatisés.

En termes de fiabilité, la résilience est la capacité du système à résister aux défaillances ou aux perturbations inattendues et à s'en remettre, tout en maintenant ses performances. Les fonctionnalitésGoogle Cloud , comme les déploiements multirégionaux, les sauvegardes automatiques et les solutions de reprise après sinistre, peuvent vous aider à améliorer la résilience de votre système.

La fiabilité est importante pour votre stratégie cloud pour de nombreuses raisons, y compris les suivantes :

Temps d'arrêt minimal : les temps d'arrêt peuvent entraîner une perte de revenus, une baisse de productivité et une atteinte à la réputation. Les architectures résilientes peuvent vous aider à vous assurer que les systèmes peuvent continuer à fonctionner en cas de défaillance ou à s'en remettre efficacement.
Expérience utilisateur améliorée : les utilisateurs s'attendent à des interactions fluides avec la technologie. Les systèmes résilients peuvent vous aider à maintenir des performances et une disponibilité constantes. Ils fournissent un service fiable, même en cas de forte demande ou de problèmes inattendus.
Intégrité des données : les défaillances peuvent entraîner une perte ou une corruption des données. Les systèmes résilients mettent en œuvre des mécanismes tels que les sauvegardes, la redondance et la réplication pour protéger les données et s'assurer qu'elles restent précises et accessibles.
Continuité de l'activité : votre entreprise s'appuie sur la technologie pour les opérations critiques. Les architectures résilientes peuvent contribuer à assurer la continuité après une défaillance catastrophique, ce qui permet aux fonctions métier de se poursuivre sans interruption majeure et favorise une reprise rapide.
Conformité : de nombreux secteurs sont soumis à des exigences réglementaires concernant la disponibilité des systèmes et la protection des données. Les architectures résilientes peuvent vous aider à respecter ces normes en garantissant que les systèmes restent opérationnels et sécurisés.
Réduction des coûts à long terme : les architectures résilientes nécessitent un investissement initial, mais la résilience peut contribuer à réduire les coûts au fil du temps en évitant les temps d'arrêt coûteux, les correctifs réactifs et en permettant une utilisation plus efficace des ressources.

Esprit d'organisation

Pour rendre vos systèmes fiables, vous avez besoin d'un plan et d'une stratégie établie. Cette stratégie doit inclure la formation et l'autorité nécessaire pour privilégier la fiabilité par rapport aux autres initiatives.

Indiquez clairement que l'ensemble de l'organisation est responsable de la fiabilité, y compris les équipes de développement, de gestion des produits, d'opérations, d'ingénierie de plate-forme et d'ingénierie en fiabilité des sites (SRE). Même les groupes axés sur l'activité, comme le marketing et les ventes, peuvent avoir une incidence sur la fiabilité.

Chaque équipe doit comprendre les cibles de fiabilité et les risques de ses applications. Les équipes doivent être responsables du respect de ces exigences. Les conflits entre la fiabilité et le développement régulier des fonctionnalités produit doivent être hiérarchisés et être remontés en conséquence.

Planifiez et gérez la fiabilité de manière holistique, pour toutes vos fonctions et équipes. Envisagez de configurer un centre d'excellence cloud (CCoE) qui inclut un pilier de fiabilité. Pour en savoir plus, consultez Optimiser le parcours cloud de votre organisation avec un centre d'excellence cloud.

Points clés pour la fiabilité

Les activités que vous effectuez pour concevoir, déployer et gérer un système fiable peuvent être classées dans les domaines d'intérêt suivants. Chacun des principes et des recommandations de fiabilité de ce pilier concerne l'un de ces domaines d'intérêt.

Définition du champ d'application : pour comprendre votre système, effectuez une analyse détaillée de son architecture. Vous devez comprendre les composants, leur fonctionnement et leur interaction, le flux de données et d'actions dans le système, et ce qui pourrait mal se passer. Identifier les échecs, les goulots d'étranglement et les risques potentiels, ce qui vous aide à prendre des mesures pour atténuer ces problèmes.
Observation : pour éviter les défaillances du système, mettez en place une observation et une surveillance complètes et continues. Cette observation vous permet de comprendre les tendances et d'identifier les problèmes potentiels de manière proactive.
Réponse : pour réduire l'impact des échecs, répondez de manière appropriée et récupérez efficacement les données. Les réponses automatisées peuvent également contribuer à réduire l'impact des défaillances. Même avec une planification et des contrôles, des échecs peuvent se produire.
Apprentissage : pour éviter que les échecs ne se reproduisent, tirez les leçons de chaque expérience et prenez les mesures appropriées.

Principes de base

Les recommandations du pilier de fiabilité du framework Well-Architected sont associées aux principes fondamentaux suivants :

Contributeurs

Auteurs :

Laura Hyatt | ingénieur client, FSI
Jose Andrade | Ingénieur client, spécialiste SRE
Gino Pelliccia | Architecte principal

Autres contributeurs :

Andrés-Leonardo Martínez-Ortiz | Responsable du programme technique
Brian Kudzia | Ingénieur client pour l'infrastructure Enterprise
Daniel Lees | Architecte en sécurité cloud
Filipe Gracio, PhD | Ingénieur client, spécialiste en IA/ML
Gary Harmson | Architecte principal
Kumar Dhanagopal Développeur de solutions multiproduits
Marwan Al Shawi | Partner Customer Engineer
Nicolas Pintaux | Ingénieur client, spécialiste de la modernisation des applications
Radhika Kanakam | Responsable du programme, Google Cloud Well-Architected Framework
Ryan Cox | Architecte principal
Samantha He | Rédactrice technique
Wade Holmes | Directeur des solutions mondiales
Zach Seils | Spécialiste en gestion des réseaux

définissent la fiabilité en fonction des objectifs d'expérience utilisateur ;