Realiza pruebas para la recuperación ante la pérdida de datos

Last reviewed 2024-12-30 UTC

Este principio del pilar de confiabilidad del Google Cloud framework de Well-Architected proporciona recomendaciones para ayudarte a diseñar y ejecutar pruebas de recuperación ante la pérdida de datos.

Este principio es pertinente para el área de enfoque del aprendizaje de la confiabilidad.

Descripción general del principio

Para asegurarte de que tu sistema pueda recuperarse de situaciones en las que se pierden o dañan datos, debes ejecutar pruebas para esos casos. Las instancias de pérdida de datos pueden deberse a un error de software o a algún tipo de desastre natural. Después de estos eventos, debes restablecer los datos desde las copias de seguridad y volver a activar todos los servicios con los datos recién restablecidos.

Te recomendamos que utilices tres criterios para juzgar el éxito o el fracaso de este tipo de prueba de recuperación: integridad de los datos, objetivo de tiempo de recuperación (RTO) y objetivo de punto de recuperación (RPO). Para obtener detalles sobre las métricas de RTO y RPO, consulta Conceptos DR desastres.

El objetivo de las pruebas de restauración de datos es verificar periódicamente que tu organización pueda seguir cumpliendo con los requisitos de continuidad del negocio. Además de medir el RTO y el RPO, una prueba de restablecimiento de datos debe incluir pruebas de toda la pila de aplicaciones y todos los servicios de infraestructura críticos con los datos restablecidos. Esto es necesario para confirmar que toda la aplicación implementada funciona correctamente en el entorno de prueba.

Recomendaciones

Cuando diseñes y ejecutes pruebas para la recuperación en caso de pérdida de datos, ten en cuenta las recomendaciones de las siguientes subsecciones.

Verifica la coherencia de las copias de seguridad y prueba los procesos de restablecimiento

Debes verificar que tus copias de seguridad contengan instantáneas coherentes y utilizables de los datos que puedes restablecer para que las aplicaciones vuelvan a estar en servicio de inmediato. Para validar la integridad de los datos, configura verificaciones de coherencia automatizadas para que se ejecuten después de cada copia de seguridad.

Para probar las copias de seguridad, restablécelas en un entorno que no sea de producción. Para garantizar que tus copias de seguridad se puedan restablecer de manera eficiente y que los datos restablecidos cumplan con los requisitos de la aplicación, simula con regularidad situaciones de recuperación de datos. Documenta los pasos para la restauración de datos y capacita a tus equipos para que los ejecuten de manera eficaz durante una falla.

Programa copias de seguridad frecuentes y periódicas

Para minimizar la pérdida de datos durante el restablecimiento y cumplir con los objetivos de RPO, es fundamental tener copias de seguridad programadas con regularidad. Establece una frecuencia de copias de seguridad que se alinee con tu RPO. Por ejemplo, si tu RPO es de 15 minutos, programa las copias de seguridad para que se ejecuten al menos cada 15 minutos. Optimiza los intervalos de copias de seguridad para reducir el riesgo de pérdida de datos.

Usa Google Cloud herramientas como Cloud Storage, las copias de seguridad automáticas de Cloud SQL o las copias de seguridad de Spanner para programar y administrar copias de seguridad. Para las aplicaciones críticas, usa soluciones de copias de seguridad casi continuas, como la recuperación de un momento determinado (PITR) para Cloud SQL o las copias de seguridad incrementales para conjuntos de datos grandes.

Cómo definir y supervisar el RPO

Establece un RPO claro según las necesidades de tu empresa y supervisa el cumplimiento del RPO. Si los intervalos de copias de seguridad superan el RPO definido, usa Cloud Monitoring para configurar alertas.

Supervisa el estado de la copia de seguridad

Usa el Google Cloud servicio de copia de seguridad y DR o herramientas similares para hacer un seguimiento del estado de tus copias de seguridad y confirmar que se almacenan en ubicaciones seguras y confiables. Asegúrate de que las copias de seguridad se repliquen en varias regiones para aumentar la resiliencia.

Planifica situaciones más allá de la copia de seguridad

Combina las copias de seguridad con estrategias de recuperación ante desastres, como configuraciones de conmutación por error activa-activa o replicación entre regiones, para mejorar el tiempo de recuperación en casos extremos. Si deseas obtener más información, consulta la Guía de planificación para la recuperación ante desastres.