Se usó la API de Cloud Translation para traducir esta página.

Compila sistemas de alta disponibilidad a través de la redundancia de recursos

Last reviewed 2024-12-30 UTC

Este principio del pilar de confiabilidad del Google Cloud framework de Well-Architected proporciona recomendaciones para planificar, compilar y administrar la redundancia de recursos, lo que puede ayudarte a evitar fallas.

Este principio es pertinente para el área de enfoque de alcance de la confiabilidad.

Descripción general del principio

Después de decidir el nivel de confiabilidad que necesitas, debes diseñar tus sistemas para evitar cualquier punto único de falla. Cada componente crítico del sistema debe replicarse en varias máquinas, zonas y regiones. Por ejemplo, una base de datos crítica no puede ubicarse en una sola región, y un servidor de metadatos no puede implementarse en una sola zona o región. En esos ejemplos, si la única zona o región tiene una interrupción, el sistema tiene una interrupción global.

Recomendaciones

Para compilar sistemas redundantes, considera las recomendaciones de las siguientes subsecciones.

Identifica los dominios de falla y replica los servicios

Traza un mapa de los dominios de falla de tu sistema, desde las VMs individuales hasta las regiones, y diseña la redundancia en todos los dominios de falla.

Para garantizar la alta disponibilidad, distribuye y replica tus servicios y aplicaciones en varias zonas y regiones. Configura el sistema para la conmutación por error automática y asegúrate de que los servicios y las aplicaciones sigan disponibles en caso de interrupciones zonales o regionales.

Para ver ejemplos de arquitecturas multizona y multirregionales, consulta Diseña una infraestructura confiable para tus cargas de trabajo en Google Cloud.

Detecta y aborda los problemas con rapidez

Realiza un seguimiento continuo del estado de tus dominios de falla para detectar y abordar los problemas con rapidez.

Puedes supervisar el estado actual de los Google Cloud servicios en todas las regiones con el Google Cloud panel de Service Health. También puedes ver los incidentes relevantes para tu proyecto con Personalized Service Health. Puedes usar balanceadores de cargas para detectar el estado de los recursos y enrutar automáticamente el tráfico a los servidores de backend en buen estado. Para obtener más información, consulta Descripción general de las verificaciones de estado.

Prueba situaciones de conmutación por error

Al igual que en un simulacro de incendio, simula fallas con regularidad para validar la eficacia de tus estrategias de replicación y conmutación por error.

Para obtener más información, consulta Simula una interrupción de zona para un MIG regional y Simula una falla de zona en clústeres regionales de GKE.

Establece objetivos realistas para la confiabilidad

Aprovecha la escalabilidad horizontal