Crear sistemas de alta disponibilidad mediante la redundancia de recursos

Last reviewed 2024-12-30 UTC

Este principio del pilar de fiabilidad del Google Cloud framework Well-Architected proporciona recomendaciones para planificar, crear y gestionar la redundancia de recursos, lo que puede ayudarte a evitar fallos.

Este principio se aplica al ámbito de la fiabilidad.

Descripción general de los principios

Una vez que hayas decidido el nivel de fiabilidad que necesitas, debes diseñar tus sistemas para evitar cualquier punto único de fallo. Todos los componentes críticos del sistema deben replicarse en varias máquinas, zonas y regiones. Por ejemplo, una base de datos crítica no puede estar ubicada en una sola región y un servidor de metadatos no puede desplegarse en una sola zona o región. En esos ejemplos, si la única zona o región tiene una interrupción, el sistema tiene una interrupción global.

Recomendaciones

Para crear sistemas redundantes, ten en cuenta las recomendaciones de las siguientes subsecciones.

Identificar dominios de error y replicar servicios

Define los dominios de los fallos de tu sistema, desde las máquinas virtuales individuales hasta las regiones, y diseña la redundancia en los dominios de los fallos.

Para asegurar una alta disponibilidad, distribuye y replica tus servicios y aplicaciones en varias zonas y regiones. Configura el sistema para que se produzca una conmutación por error automática y asegúrate de que los servicios y las aplicaciones sigan estando disponibles en caso de que se produzcan interrupciones en una zona o una región.

Para ver ejemplos de arquitecturas multizona y multirregión, consulta Diseñar una infraestructura fiable para las cargas de trabajo en Google Cloud.

Detectar y solucionar problemas rápidamente

Monitoriza continuamente el estado de tus dominios de error para detectar y solucionar problemas rápidamente.

Puedes monitorizar el estado actual de los Google Cloud servicios en todas las regiones mediante el Google Cloud panel de control Service Health. También puedes ver los incidentes relacionados con tu proyecto en Personalized Service Health. Puedes usar balanceadores de carga para detectar el estado de los recursos y enrutar automáticamente el tráfico a los backends en buen estado. Para obtener más información, consulta el artículo Introducción a las comprobaciones del estado.

Probar escenarios de conmutación por error

Al igual que en un simulacro de incendio, simula fallos periódicamente para validar la eficacia de tus estrategias de replicación y conmutación por error.

Para obtener más información, consulta Simular una interrupción de la zona en un MIG regional y Simular un fallo de zona en clústeres regionales de GKE.