Esta página se ha traducido con Cloud Translation API.

Perspectiva de las IFSs: fiabilidad

Last reviewed 2025-07-28 UTC

Este documento del Google Cloud framework de arquitectura óptima: perspectiva del sector de servicios financieros ofrece una descripción general de los principios y las recomendaciones para diseñar, implementar y operar cargas de trabajo fiables del sector de servicios financieros enGoogle Cloud. En este documento se explica cómo integrar prácticas de fiabilidad avanzadas y observabilidad en tus planos de arquitectura. Las recomendaciones de este documento se ajustan al pilar de fiabilidad del marco de trabajo Well-Architected.

Para las instituciones financieras, una infraestructura fiable y resiliente es tanto una necesidad empresarial como un imperativo normativo. Para asegurarte de que las cargas de trabajo de las instituciones financieras enGoogle Cloud sean fiables, debes identificar y mitigar los posibles puntos de fallo, desplegar recursos de forma redundante y planificar la recuperación. La resiliencia operativa es el resultado de la fiabilidad. Es la capacidad de absorber, adaptarse y recuperarse de las interrupciones. La resiliencia operativa ayuda a las organizaciones de servicios financieros a cumplir requisitos normativos estrictos. También ayuda a evitar daños intolerables a los clientes.

Los componentes básicos de la fiabilidad en Google Cloud son las regiones, las zonas y los distintos ámbitos de ubicación de los recursos en la nube: de zona, regionales, multirregionales y globales. Puedes mejorar la disponibilidad usando servicios gestionados, distribuyendo recursos, implementando patrones de alta disponibilidad y automatizando procesos.

Requisitos normativos

Las organizaciones de servicios financieros operan bajo estrictos mandatos de fiabilidad de agencias reguladoras como el Sistema de la Reserva Federal de EE. UU., la Autoridad Bancaria Europea de la UE y la Autoridad de Regulación Prudencial del Reino Unido. A nivel mundial, los organismos reguladores hacen hincapié en la resiliencia operativa, que es fundamental para la estabilidad financiera y la protección de los consumidores. La resiliencia operativa es la capacidad de resistir las interrupciones, recuperarse de forma eficaz y mantener los servicios críticos. Esto requiere un enfoque armonizado para gestionar los riesgos tecnológicos y las dependencias de terceros.

Los requisitos normativos de la mayoría de las jurisdicciones tienen los siguientes temas en común:

Ciberseguridad y resiliencia tecnológica: reforzar las defensas contra las ciberamenazas y garantizar la resiliencia de los sistemas de TI.
Gestión de riesgos de terceros: gestión de los riesgos asociados a la externalización de servicios a proveedores de tecnologías de la información y la comunicación (TIC).
Continuidad de la actividad y respuesta a incidentes: planificación sólida para mantener las operaciones críticas durante las interrupciones y recuperarse de forma eficaz.
Proteger la estabilidad financiera: garantizar la solidez y la estabilidad del sistema financiero en general.

Las recomendaciones de fiabilidad de este documento se corresponden con los siguientes principios básicos:

Priorizar los despliegues multizona y multirregionales
Eliminar los puntos únicos de fallo (SPOFs)
Consultar y gestionar la disponibilidad agregada
Implementar una estrategia de recuperación ante desastres sólida
Aprovechar los servicios gestionados
Automatizar los procesos de aprovisionamiento y recuperación de la infraestructura

Priorizar los despliegues multizona y multirregionales

En el caso de las aplicaciones de servicios financieros críticos, te recomendamos que uses una topología multirregión distribuida en al menos dos regiones y en tres zonas de cada región. Esta estrategia es importante para la resiliencia frente a las interrupciones de zonas y regiones. Las normativas suelen prescribir este enfoque, ya que, si se produce un fallo en una zona o región, la mayoría de las jurisdicciones consideran que una interrupción grave en una segunda zona es una consecuencia plausible. El motivo es que, si falla una ubicación, la otra puede recibir una cantidad excepcionalmente alta de tráfico adicional.

Para aumentar la resiliencia frente a las interrupciones de zonas y regiones, ten en cuenta las siguientes recomendaciones:

Prioriza los recursos que tengan un ámbito geográfico más amplio. Cuando sea posible, usa recursos regionales en lugar de recursos de zona, y recursos multirregionales o globales en lugar de recursos regionales. Este enfoque ayuda a evitar la necesidad de restaurar operaciones mediante copias de seguridad.
En cada región, utiliza tres zonas en lugar de dos. Para gestionar las conmutaciones por error, aprovisiona una capacidad un tercio superior a la estimada.
Minimiza los pasos de recuperación manual implementando implementaciones activo-activo, como en los siguientes ejemplos:
- Las bases de datos distribuidas, como Spanner, ofrecen redundancia y sincronización integradas en todas las regiones.
- La función de alta disponibilidad de Cloud SQL proporciona una topología casi activa-activa con réplicas de lectura en todas las zonas. Proporciona un objetivo de punto de recuperación (RPO) entre regiones cercano a 0.
Distribuye el tráfico de usuarios entre regiones mediante Cloud DNS y despliega un balanceador de carga regional en cada región. Un balanceador de carga global es otra opción que puedes tener en cuenta en función de tus requisitos y de la criticidad. Para obtener más información, consulta Ventajas y riesgos del balanceo de carga global en implementaciones multirregión.
Para almacenar datos, usa servicios multirregionales como Spanner y Cloud Storage.

Eliminar los puntos únicos de fallo

Distribuye los recursos en diferentes ubicaciones y usa recursos redundantes para evitar que un único punto de fallo afecte a toda la pila de aplicaciones.

Ten en cuenta las siguientes recomendaciones para evitar los SPOFs:

No implementes un solo servidor de aplicaciones o una sola base de datos.
Asegúrate de que las VMs con errores se vuelvan a crear automáticamente mediante grupos de instancias gestionados (MIGs).
Distribuye el tráfico de forma uniforme entre los recursos disponibles implementando el balanceo de carga.
Usa configuraciones de alta disponibilidad para bases de datos como Cloud SQL.
Mejora la disponibilidad de los datos usando discos persistentes regionales con replicación síncrona.

Para obtener más información, consulta Diseñar una infraestructura fiable para tus cargas de trabajo en Google Cloud.

Consultar y gestionar la disponibilidad agregada

Ten en cuenta que la disponibilidad general o agregada de un sistema se ve afectada por la disponibilidad de cada nivel o componente del sistema. El número de niveles de una pila de aplicaciones tiene una relación inversa con la disponibilidad agregada de la pila. Para gestionar la disponibilidad agregada, ten en cuenta las siguientes recomendaciones:

Para calcular la disponibilidad agregada de una pila multinivel, usa la fórmula disponibilidad_nivel1 × disponibilidad_nivel2 × disponibilidad_nivelN.

En el siguiente diagrama se muestra el cálculo de la disponibilidad agregada de un sistema multinivel que consta de cuatro servicios:

En el diagrama anterior, el servicio de cada nivel ofrece una disponibilidad del 99,9 %, pero la disponibilidad agregada del sistema es inferior, del 99,6% (0,999 × 0,999 × 0,999 × 0,999). Por lo general, la disponibilidad agregada de una pila multinivel es inferior a la disponibilidad del nivel que ofrece la menor disponibilidad.
Cuando sea posible, elige la paralelización en lugar del encadenamiento. Con los servicios paralelizados, la disponibilidad de extremo a extremo es mayor que la disponibilidad de cada servicio individual.

En el siguiente diagrama se muestran dos servicios, A y B, que se implementan mediante los enfoques de encadenamiento y paralelización:

En los ejemplos anteriores, ambos servicios tienen un SLA del 99%, lo que da como resultado la siguiente disponibilidad agregada en función del enfoque de implementación:
- Los servicios encadenados ofrecen una disponibilidad agregada de solo el 98% (0,99 × 0,99).
- Los servicios paralelizados ofrecen una disponibilidad agregada mayor, del 99,99 %, porque cada servicio se ejecuta de forma independiente y los servicios individuales no se ven afectados por la disponibilidad de los demás servicios. La fórmula de los servicios paralelizados agregados es 1 − (1 − A) × (1 − B).
Elige Google Cloud servicios con acuerdos de nivel de servicio de tiempo de actividad que te ayuden a alcanzar el nivel de tiempo de actividad general requerido para tu pila de aplicaciones.
Al diseñar tu arquitectura, ten en cuenta las ventajas y desventajas de la disponibilidad, la complejidad operativa, la latencia y el coste. Aumentar el número de nueves de disponibilidad suele costar más, pero te ayuda a cumplir los requisitos normativos.

Por ejemplo, una disponibilidad del 99,9 % (tres nueves) significa que el tiempo de inactividad potencial es de 86 segundos en un día de 24 horas. Por el contrario, el 99% (dos nueves) significa un tiempo de inactividad de 864 segundos durante el mismo periodo, que es 10 veces mayor que el tiempo de inactividad con tres nueves de disponibilidad.

En el caso de los servicios financieros esenciales, las opciones de arquitectura pueden ser limitadas. Sin embargo, es fundamental identificar los requisitos de disponibilidad y calcularla con precisión. Realizar una evaluación de este tipo te ayuda a valorar las implicaciones de tus decisiones de diseño en tu arquitectura y presupuesto.

Implementar una estrategia de recuperación ante desastres sólida

Crea planes bien definidos para diferentes situaciones de desastre, incluidas las interrupciones zonales y regionales. Una estrategia de recuperación tras fallos bien definida te permite recuperarte de una interrupción y reanudar las operaciones normales con un impacto mínimo.

La recuperación ante desastres y la alta disponibilidad son conceptos diferentes. En los despliegues en la nube, la recuperación ante desastres se aplica a los despliegues multirregionales y la alta disponibilidad a los despliegues regionales. Estos arquetipos de implementación admiten diferentes mecanismos de replicación.

HA muchos servicios gestionados proporcionan de forma predeterminada la replicación síncrona entre zonas de una misma región. Estos servicios admiten un objetivo de tiempo de recuperación (RTO) y un objetivo de punto de recuperación (RPO) de cero o casi cero. Este servicio te permite crear una topología de implementación activa-activa que no tenga ningún SPOF.
Recuperación ante desastres: en el caso de las cargas de trabajo que se despliegan en dos o más regiones, si no utilizas servicios multirregionales o globales, debes definir una estrategia de replicación. La estrategia de replicación suele ser asíncrona. Evalúa detenidamente cómo afecta esta replicación al tiempo de recuperación y al punto de recuperación de datos de las aplicaciones críticas. Identifica las operaciones manuales o semiautomáticas que sean necesarias para la conmutación por error.

En el caso de las entidades financieras, la elección de la región de conmutación por error puede estar limitada por las normativas sobre soberanía y residencia de los datos. Si necesitas una topología activo-activo en dos regiones, te recomendamos que elijas servicios multirregionales gestionados, como Spanner y Cloud Storage, sobre todo si la replicación de datos es fundamental.

Ten en cuenta las siguientes recomendaciones:

Utiliza servicios de almacenamiento multirregional gestionados para los datos.
Haz capturas de los datos de los discos persistentes y almacénalas en ubicaciones multirregionales.
Cuando uses recursos regionales o zonales, configura la replicación de datos en otras regiones.
Valida que tus planes de recuperación ante desastres sean eficaces probándolos con regularidad.
Ten en cuenta el tiempo de recuperación (RTO) y el punto de recuperación (RPO), así como su correlación con la tolerancia al impacto estipulada por las normativas financieras de tu jurisdicción.

Para obtener más información, consulta el artículo Diseñar la recuperación ante desastres en caso de interrupciones de la infraestructura en la nube.

Aprovechar los servicios gestionados

Siempre que sea posible, usa servicios gestionados para aprovechar las funciones integradas de copias de seguridad, alta disponibilidad y escalabilidad. Ten en cuenta las siguientes recomendaciones para usar servicios gestionados:

Usa servicios gestionados en Google Cloud. Ofrecen alta disponibilidad respaldada por acuerdos de nivel de servicio. También ofrecen mecanismos de copia de seguridad y funciones de resiliencia integrados.
Para gestionar los datos, puedes usar servicios como Cloud SQL, Cloud Storage y Spanner.
Para el alojamiento de aplicaciones y recursos de computación, puedes usar grupos de instancias gestionados (MIGs) de Compute Engine y clústeres de Google Kubernetes Engine (GKE). Los grupos regionales de instancias gestionados y los clústeres regionales de GKE son resistentes a las interrupciones de las zonas.
Para mejorar la resiliencia ante interrupciones en una región, usa servicios multirregionales gestionados.
Identifica la necesidad de planes de salida para los servicios que tengan características únicas y define los planes necesarios. Los organismos reguladores financieros, como la FCA, la PRA y la EBA, exigen que las empresas tengan estrategias y planes de contingencia para la recuperación de datos y la continuidad operativa si finaliza la relación con un proveedor de servicios en la nube. Las empresas deben evaluar la viabilidad de la salida antes de firmar contratos de nube y deben mantener la capacidad de cambiar de proveedor sin que se produzcan interrupciones operativas.
Comprueba que los servicios que elijas admitan la exportación de datos a un formato abierto, como CSV, Parquet y Avro. Verifica si los servicios se basan en tecnologías abiertas, como la compatibilidad de GKE con el formato de Open Container Initiative (OCI) o Cloud Composer, que se basa en Apache Airflow.

Automatizar los procesos de aprovisionamiento y recuperación de la infraestructura

La automatización ayuda a minimizar los errores humanos y a reducir el tiempo y los recursos necesarios para responder a los incidentes. El uso de la automatización puede ayudar a garantizar una recuperación más rápida de los fallos y resultados más coherentes. Ten en cuenta las siguientes recomendaciones para automatizar la forma en que aprovisionas y recuperas recursos:

Minimiza los errores humanos usando herramientas de infraestructura como código (IaC) como Terraform.
Reduce la intervención manual automatizando los procesos de conmutación por error. Las respuestas automáticas también pueden ayudar a reducir el impacto de los fallos. Por ejemplo, puedes usar Eventarc u Workflows para activar automáticamente acciones correctivas en respuesta a los problemas observados en los registros de auditoría.
Aumenta la capacidad de tus recursos en la nube durante la conmutación por error mediante el escalado automático.
Aplica automáticamente políticas y barreras de protección para cumplir los requisitos normativos en toda tu topología de nube durante el despliegue de servicios adoptando la ingeniería de plataformas.

Seguridad

Optimización de costes