Este principio del pilar de fiabilidad del Google Cloud marco de trabajo Well-Architected ofrece recomendaciones para ayudarte a diseñar y ejecutar pruebas de recuperación tras una pérdida de datos.
Este principio se aplica al área de aprendizaje de la fiabilidad.
Descripción general de los principios
Para asegurarte de que tu sistema puede recuperarse en situaciones en las que se pierden o dañan datos, debes realizar pruebas en esos casos. Los casos de pérdida de datos pueden deberse a un error de software o a algún tipo de desastre natural. Después de estos eventos, debes restaurar los datos a partir de las copias de seguridad y volver a poner en marcha todos los servicios con los datos recién restaurados.
Te recomendamos que utilices tres criterios para determinar si este tipo de prueba de recuperación se ha realizado correctamente o no: integridad de los datos, tiempo de recuperación objetivo (RTO) y punto de recuperación objetivo (RPO). Para obtener más información sobre las métricas de RTO y RPO, consulta Conceptos básicos de la planificación de recuperación ante desastres.
El objetivo de las pruebas de restauración de datos es verificar periódicamente que tu organización puede seguir cumpliendo los requisitos de continuidad empresarial. Además de medir el RTO y el RPO, una prueba de restauración de datos debe incluir pruebas de toda la pila de aplicaciones y de todos los servicios de infraestructura críticos con los datos restaurados. Esto es necesario para confirmar que toda la aplicación implementada funciona correctamente en el entorno de prueba.
Recomendaciones
Cuando diseñes y ejecutes pruebas para recuperarte de una pérdida de datos, ten en cuenta las recomendaciones de las siguientes subsecciones.
Verificar la coherencia de las copias de seguridad y probar los procesos de restauración
Debes verificar que tus copias de seguridad contengan capturas coherentes y utilizables de los datos que puedas restaurar para que las aplicaciones vuelvan a estar operativas inmediatamente. Para validar la integridad de los datos, configura comprobaciones de coherencia automatizadas que se ejecuten después de cada copia de seguridad.
Para probar las copias de seguridad, restáuralas en un entorno que no sea de producción. Para asegurarte de que las copias de seguridad se pueden restaurar de forma eficiente y de que los datos restaurados cumplen los requisitos de las aplicaciones, simula periódicamente escenarios de recuperación de datos. Documenta los pasos para restaurar los datos y forma a tus equipos para que los ejecuten de forma eficaz en caso de fallo.
Programa copias de seguridad periódicas y frecuentes
Para minimizar la pérdida de datos durante la restauración y cumplir los objetivos de RPO, es fundamental programar copias de seguridad periódicas. Establece una frecuencia de copia de seguridad que se ajuste a tu RPO. Por ejemplo, si tu RPO es de 15 minutos, programa las copias de seguridad para que se ejecuten al menos cada 15 minutos. Optimiza los intervalos de las copias de seguridad para reducir el riesgo de pérdida de datos.
Usa Google Cloud herramientas como Cloud Storage, copias de seguridad automáticas de Cloud SQL o copias de seguridad de Spanner para programar y gestionar copias de seguridad. En el caso de las aplicaciones críticas, usa soluciones de copia de seguridad casi continua, como la recuperación a un momento dado (PITR) de Cloud SQL o las copias de seguridad incrementales para conjuntos de datos de gran tamaño.
Definir y monitorizar el RPO
Define un RPO claro en función de las necesidades de tu empresa y monitoriza el cumplimiento del RPO. Si los intervalos de copia de seguridad superan el RPO definido, usa Cloud Monitoring para configurar alertas.
Monitorizar el estado de las copias de seguridad
Usa el Google Cloud servicio de copia de seguridad y recuperación ante desastres u otras herramientas similares para monitorizar el estado de tus copias de seguridad y confirmar que se almacenan en ubicaciones seguras y fiables. Asegúrate de que las copias de seguridad se repliquen en varias regiones para aumentar la resiliencia.
Planificar situaciones que van más allá de la copia de seguridad
Combina las copias de seguridad con estrategias de recuperación tras fallos, como configuraciones de conmutación por error activo-activo o replicación multirregional, para mejorar el tiempo de recuperación en casos extremos. Para obtener más información, consulta la guía de planificación para la recuperación tras fallos.