Créer des systèmes à haute disponibilité grâce à la redondance des ressources

Last reviewed 2024-12-30 UTC

Ce principe du pilier de fiabilité du Google Cloud Well-Architected Framework fournit des recommandations pour planifier, créer et gérer la redondance des ressources, ce qui peut vous aider à éviter les défaillances.

Ce principe s'applique au domaine d'application de la fiabilité.

Présentation des principes

Après avoir défini le niveau de fiabilité dont vous avez besoin, vous devez concevoir vos systèmes de manière à éviter tout point de défaillance unique. Chaque composant critique du système doit être répliqué sur plusieurs machines, zones et régions. Par exemple, une base de données critique ne peut pas être située dans une seule région, et un serveur de métadonnées ne peut pas être déployé dans une seule zone ou région. Dans ces exemples, si la seule zone ou région est indisponible, le système est indisponible à l'échelle mondiale.

Recommandations

Pour créer des systèmes redondants, tenez compte des recommandations des sous-sections suivantes.

Identifier les domaines de défaillance et répliquer les services

Cartographiez les domaines de défaillance de votre système, des VM individuelles aux régions, et concevez la redondance dans les domaines de défaillance.

Pour garantir une haute disponibilité, distribuez et répliquez vos services et applications sur plusieurs zones et régions. Configurez le système pour le basculement automatique afin de vous assurer que les services et les applications restent disponibles en cas de panne de zone ou de région.

Pour obtenir des exemples d'architectures multizones et multirégionales, consultez Concevoir une infrastructure fiable pour vos charges de travail dans Google Cloud.

Détecter et résoudre rapidement les problèmes

Suivez en permanence l'état de vos domaines de défaillance pour détecter et résoudre rapidement les problèmes.

Vous pouvez surveiller l'état actuel des services Google Cloud dans toutes les régions à l'aide du tableau de bord Service Health.Google Cloud Vous pouvez également afficher les incidents pertinents pour votre projet à l'aide de Personalized Service Health. Vous pouvez utiliser des équilibreurs de charge pour détecter l'état des ressources et acheminer automatiquement le trafic vers des backends opérationnels. Pour en savoir plus, consultez la présentation des vérifications d'état.

Tester les scénarios de basculement

Comme pour un exercice d'incendie, simulez régulièrement des défaillances pour valider l'efficacité de vos stratégies de réplication et de basculement.

Pour en savoir plus, consultez Simuler une défaillance de zone pour un MIG régional et Simuler une défaillance de zone dans des clusters régionaux GKE.