Perspectiva de las IFSs: excelencia operativa

Last reviewed 2025-07-28 UTC

Este documento del Google Cloud framework Well-Architected: perspectiva del sector de los servicios financieros ofrece una descripción general de los principios y las recomendaciones para crear, implementar y operar cargas de trabajo sólidas del sector de los servicios financieros en Google Cloud. Estas recomendaciones te ayudan a configurar elementos clave como la observabilidad, la automatización y la escalabilidad. Las recomendaciones de este documento se ajustan al pilar de excelencia operativa del framework Well-Architected.

La excelencia operativa es fundamental para las cargas de trabajo de las instituciones financieras en Google Cloud , debido a la naturaleza altamente regulada y sensible de dichas cargas de trabajo. La excelencia operativa asegura que las soluciones en la nube puedan adaptarse a las necesidades cambiantes y cumplir tus requisitos de valor, rendimiento, seguridad y fiabilidad. Los fallos en estas áreas pueden provocar pérdidas económicas significativas, sanciones regulatorias y daños en la reputación.

La excelencia operativa ofrece las siguientes ventajas para las cargas de trabajo de las instituciones financieras:

  • Mantener la confianza y la reputación: las entidades financieras dependen en gran medida de la confianza de sus clientes. Las interrupciones operativas o las brechas de seguridad pueden erosionar gravemente esta confianza y provocar la pérdida de clientes. La excelencia operativa ayuda a minimizar estos riesgos.
  • Cumplir requisitos normativos estrictos: el sector de las instituciones financieras está sujeto a numerosas normativas complejas, como las siguientes:

    Es fundamental contar con procesos operativos, monitorización y gestión de incidentes sólidos para demostrar el cumplimiento de las normativas y evitar sanciones.

  • Asegurar la continuidad y la resiliencia de las empresas: los mercados y los servicios financieros suelen operar de forma continua. Por lo tanto, la alta disponibilidad y la recuperación tras fallos eficaz son fundamentales. Los principios de excelencia operativa guían el diseño y la implementación de sistemas resilientes. El pilar de fiabilidad ofrece más información sobre este tema.

  • Protección de datos sensibles: las instituciones financieras gestionan grandes cantidades de datos financieros y de clientes altamente sensibles. Es fundamental contar con controles operativos sólidos, monitorización de la seguridad y una respuesta rápida ante incidentes para evitar las brechas de datos y mantener la privacidad. En el pilar de seguridad se ofrece más información sobre este tema.

  • Optimizar el rendimiento de las aplicaciones críticas: muchas aplicaciones financieras, como las plataformas de trading y las analíticas en tiempo real, requieren un alto rendimiento y una baja latencia. Para cumplir estos requisitos de rendimiento, necesitas un diseño de computación, redes y almacenamiento altamente optimizado. El pilar de optimización del rendimiento ofrece más información sobre este tema.

  • Gestionar los costes de forma eficaz: además de la seguridad y la fiabilidad, las entidades financieras también se preocupan por la rentabilidad. La excelencia operativa incluye prácticas para optimizar el uso de los recursos y gestionar los gastos en la nube. El pilar de optimización de costes ofrece más información sobre este tema.

Las recomendaciones de excelencia operativa de este documento se corresponden con los siguientes principios básicos:

Definir acuerdos de nivel de servicio y los objetivos e indicadores de nivel de servicio correspondientes

En muchas organizaciones de servicios financieros, la disponibilidad de las aplicaciones se clasifica normalmente en función de las métricas de objetivo de tiempo de recuperación (RTO) y objetivo de punto de recuperación (RPO). En el caso de las aplicaciones esenciales para la empresa que atienden a clientes externos, también se puede definir un acuerdo de nivel de servicio (SLA).

Los acuerdos de nivel de servicio necesitan un marco de métricas que represente el comportamiento del sistema desde la perspectiva de la satisfacción del usuario. Las prácticas de Site Reliability Engineering (SRE) ofrecen una forma de alcanzar el nivel de fiabilidad del sistema que quieras. Para crear un marco de métricas, se deben definir y monitorizar indicadores numéricos clave para conocer el estado del sistema desde el punto de vista del usuario. Por ejemplo, las métricas como la latencia y las tasas de error cuantifican el rendimiento de un servicio. Estas métricas se denominan indicadores de nivel de servicio (SLIs). Es fundamental desarrollar SLIs eficaces, ya que proporcionan los datos sin procesar necesarios para evaluar la fiabilidad de forma objetiva.

Para definir SLAs, SLIs y SLOs significativos, ten en cuenta las siguientes recomendaciones:

  • Desarrolla y define SLIs para cada servicio crítico. Define los valores objetivo que definen los niveles de rendimiento aceptables.
  • Desarrolla y define los objetivos de nivel de servicio que correspondan a los indicadores de nivel de servicio. Por ejemplo, un SLO puede indicar que el 99,9% de las solicitudes deben tener una latencia inferior a 200 milisegundos.
  • Identifica las medidas correctoras internas que deben tomarse si un servicio no cumple los SLOs. Por ejemplo, para mejorar la resiliencia de la plataforma, es posible que tengas que centrar los recursos de desarrollo en solucionar problemas.
  • Valida el requisito del ANS de cada servicio y reconoce el ANS como el contrato formal con los usuarios del servicio.

Ejemplos de niveles de servicio

En la siguiente tabla se muestran ejemplos de indicadores de nivel de servicio (SLIs), objetivos de nivel de servicio (SLOs) y acuerdos de nivel de servicio (SLAs) de una plataforma de pagos:

Métrica de negocio SLI SLO Acuerdo de nivel de servicio
Transacción de pago correcta

Medida cuantitativa del porcentaje de todas las transacciones de pago iniciadas que se han procesado y confirmado correctamente.

Ejemplo: (número de transacciones completadas ÷ número total de transacciones válidas) × 100, medido en un periodo de 5 minutos.

Un objetivo interno para mantener un porcentaje alto de transacciones de pago correctas durante un periodo específico.

Ejemplo: Mantener una tasa de éxito de las transacciones de pago del 99,98% durante un periodo de 30 días, sin incluir las solicitudes no válidas ni el mantenimiento programado.

Una garantía contractual de la tasa de éxito y la velocidad del procesamiento de las transacciones de pago.

Ejemplo: El proveedor de servicios garantiza que el 99 % de las transacciones de pago iniciadas por el cliente se procesarán y confirmarán correctamente en un segundo.

Latencia del procesamiento de pagos

El tiempo medio que tarda en procesarse una transacción de pago desde que el cliente la inicia hasta que se confirma.

Ejemplo: tiempo medio de respuesta en milisegundos para la confirmación de transacciones, medido en un periodo de 5 minutos.

Objetivo interno de la velocidad a la que se procesan las transacciones de pago.

Ejemplo: Asegúrate de que el 99,5% de las transacciones de pago se procesen en un plazo de 400 milisegundos en un periodo de 30 días.

Compromiso contractual para resolver problemas críticos de procesamiento de pagos en un plazo determinado.

Ejemplo: En caso de problemas críticos con el procesamiento de pagos (definidos como una interrupción que afecta a más del 1% de las transacciones), el proveedor de servicios se compromete a resolverlos en un plazo de dos horas a partir del momento en que se comuniquen o se detecten.

Disponibilidad de la plataforma

El porcentaje de tiempo en el que la API principal de procesamiento de pagos y la interfaz de usuario están operativas y los clientes pueden acceder a ellas.

Ejemplo: (tiempo total de funcionamiento − tiempo de inactividad) ÷ tiempo total de funcionamiento × 100, medido por minuto.

Objetivo interno del tiempo de actividad de la plataforma de pago principal.

Ejemplo: Consigue una disponibilidad de la plataforma del 99,995% por mes natural, sin incluir los periodos de mantenimiento programados.

Un compromiso formal y jurídicamente vinculante con los clientes en relación con el tiempo de actividad mínimo de la plataforma de pagos, incluidas las consecuencias en caso de incumplimiento.

Ejemplo: La plataforma mantendrá una disponibilidad mínima del 99,9% por mes natural, sin incluir las ventanas de mantenimiento programadas. Si la disponibilidad es inferior al nivel mínimo, el cliente recibirá un crédito de servicio del 5% de la cuota de servicio mensual por cada descenso del 0,1 %.

Usa los datos de SLI para monitorizar si los sistemas cumplen los SLOs definidos y para asegurarte de que se cumplen los SLAs. Mediante un conjunto de SLIs bien definidos, los ingenieros y los desarrolladores pueden monitorizar las aplicaciones de las instituciones financieras a los siguientes niveles:

  • Directamente en el servicio en el que se despliegan las aplicaciones, como GKE o Cloud Run.
  • Usando los registros proporcionados por los componentes de la infraestructura, como el balanceador de carga.

OpenTelemetry proporciona un estándar de código abierto y un conjunto de tecnologías para recoger todos los tipos de telemetría, incluidas las métricas, las trazas y los registros. Google Cloud Managed Service para Prometheus proporciona un backend totalmente gestionado y altamente escalable para las métricas y el funcionamiento de Prometheus a gran escala.

Para obtener más información sobre los SLI, los SLO y los presupuestos de errores, consulta el manual de SRE.

Para desarrollar paneles de control y mecanismos de monitorización y alertas eficaces, usa las herramientas de Google Cloud Observability junto con Google Cloud Monitoring. Para obtener información sobre las funciones de monitorización y detección específicas de seguridad, consulta el pilar de seguridad.

Definir y probar los procesos de gestión de incidentes

Los procesos de gestión de incidentes bien definidos y probados periódicamente contribuyen directamente al valor, el rendimiento, la seguridad y la fiabilidad de las cargas de trabajo de las entidades financieras en Google Cloud. Estos procesos ayudan a las instituciones financieras a cumplir sus estrictos requisitos normativos, proteger los datos sensibles, mantener la continuidad del negocio y ganarse la confianza de los clientes.

Las pruebas periódicas de los procesos de gestión de incidentes ofrecen las siguientes ventajas:

  • Mantener el rendimiento en momentos de máxima carga: las pruebas periódicas de rendimiento y carga ayudan a las entidades financieras a asegurarse de que sus aplicaciones e infraestructura basadas en la nube puedan gestionar volúmenes de transacciones máximos, la volatilidad del mercado y otras situaciones de alta demanda sin que se vea afectado el rendimiento. Esta función es fundamental para mantener una experiencia de usuario fluida y satisfacer las demandas de los mercados financieros.
  • Identificar posibles cuellos de botella y limitaciones: las pruebas de estrés llevan los sistemas al límite y permiten a las entidades financieras identificar posibles cuellos de botella y limitaciones de rendimiento antes de que afecten a las operaciones críticas. Este enfoque proactivo permite a las instituciones financieras ajustar su infraestructura y sus aplicaciones para optimizar el rendimiento y la escalabilidad.
  • Valida la fiabilidad y la resiliencia: las pruebas periódicas, incluidas las de ingeniería del caos o los fallos simulados, ayudan a validar la fiabilidad y la resiliencia de los sistemas financieros. Estas pruebas aseguran que los sistemas puedan recuperarse de los fallos sin problemas y mantener una alta disponibilidad, lo cual es esencial para la continuidad del negocio.
  • Realiza una planificación de la capacidad eficaz: las pruebas de rendimiento proporcionan datos valiosos sobre el uso de los recursos en diferentes condiciones de carga, lo que es fundamental para una planificación de la capacidad precisa. Las entidades financieras pueden usar estos datos para anticipar de forma proactiva las necesidades de capacidad futuras y evitar problemas de rendimiento debido a las limitaciones de recursos.
  • Despliega nuevas funciones y cambios de código correctamente: la integración de pruebas automatizadas en los flujos de trabajo de CI/CD ayuda a asegurar que los cambios y los nuevos despliegues se validen exhaustivamente antes de lanzarse en entornos de producción. Este enfoque reduce significativamente el riesgo de errores y regresiones que podrían provocar interrupciones operativas.
  • Cumplir los requisitos normativos de estabilidad del sistema: las normativas financieras suelen exigir que las instituciones tengan prácticas de pruebas sólidas para garantizar la estabilidad y la fiabilidad de sus sistemas críticos. Las pruebas periódicas ayudan a demostrar el cumplimiento de estos requisitos.

Para definir y probar tus procesos de gestión de incidentes, ten en cuenta las siguientes recomendaciones.

Establecer procedimientos claros de respuesta a incidentes

Un conjunto bien definido de procedimientos de respuesta ante incidentes incluye los siguientes elementos:

  • Funciones y responsabilidades definidas para los responsables de incidentes, los investigadores, los comunicadores y los expertos técnicos para asegurar una respuesta eficaz y coordinada.
  • Protocolos de comunicación y rutas de derivación definidos para asegurar que la información se comparte de forma rápida y eficaz durante los incidentes.
  • Procedimientos documentados en un manual de operaciones o de procedimientos que describa los pasos para la comunicación, la clasificación, la investigación y la resolución.
  • Formación y preparación periódicas que proporcionen a los equipos los conocimientos y las habilidades necesarios para responder de forma eficaz.

Implementar pruebas de rendimiento y de carga con regularidad

Las pruebas de rendimiento y carga periódicas ayudan a asegurar que las aplicaciones y la infraestructura basadas en la nube puedan gestionar las cargas máximas y mantener un rendimiento óptimo. Las pruebas de carga simulan patrones de tráfico realistas. Las pruebas de carga someten al sistema a sus límites para identificar posibles cuellos de botella y limitaciones de rendimiento. Puedes usar productos como Cloud Load Balancing y servicios de pruebas de carga para simular el tráfico real. En función de los resultados de las pruebas, puedes ajustar tu infraestructura y tus aplicaciones en la nube para conseguir un rendimiento y una escalabilidad óptimos. Por ejemplo, puede ajustar la asignación de recursos o configurar las aplicaciones.

Automatizar las pruebas en los flujos de procesamiento de CI/CD

Incorporar pruebas automatizadas en tus flujos de procesamiento de CI/CD te ayuda a asegurar la calidad y la fiabilidad de las aplicaciones en la nube validando los cambios antes de implementarlos. Este enfoque reduce significativamente el riesgo de errores y regresiones, y te ayuda a crear un sistema de software más estable y robusto. Puedes incorporar diferentes tipos de pruebas en tus pipelines de CI/CD, como pruebas unitarias, pruebas de integración y pruebas completas. Usa productos como Cloud Build y Cloud Deploy para crear y gestionar tus flujos de procesamiento de CI/CD.

Mejorar e innovar continuamente

En el caso de las cargas de trabajo de servicios financieros en la nube, la migración a la nube es solo el primer paso. Las mejoras y la innovación continuas son esenciales por los siguientes motivos:

  • Acelera la innovación: aprovecha las nuevas tecnologías, como la IA, para mejorar tus servicios.
  • Reducir costes: elimina las ineficiencias y optimiza el uso de los recursos.
  • Mejorar la agilidad: adaptarse rápidamente a los cambios del mercado y de la normativa.
  • Mejorar la toma de decisiones: usa productos de analíticas de datos como BigQuery y Looker para tomar decisiones fundamentadas.

Para asegurar la mejora continua y la innovación, tenga en cuenta las siguientes recomendaciones.

Realiza retrospectivas periódicas

Las retrospectivas son fundamentales para mejorar continuamente los procedimientos de respuesta a incidentes y para optimizar las estrategias de prueba en función de los resultados de las pruebas de rendimiento y de carga periódicas. Para que las retrospectivas sean eficaces, haz lo siguiente:

  • Ofrece a los equipos la oportunidad de reflexionar sobre sus experiencias, identificar qué ha ido bien y determinar las áreas de mejora.
  • Organiza retrospectivas después de alcanzar hitos de proyectos, incidentes importantes o ciclos de pruebas significativos. Los equipos pueden aprender tanto de los éxitos como de los fracasos y perfeccionar continuamente sus procesos y prácticas.
  • Usa un enfoque estructurado, como el modelo empezar-parar-continuar, para asegurarte de que las sesiones retrospectivas sean productivas y den lugar a medidas concretas.
  • Usa retrospectivas para identificar áreas en las que se pueda mejorar la automatización de la gestión de cambios para aumentar la fiabilidad y reducir los riesgos.

Fomentar una cultura de aprendizaje

Una cultura de aprendizaje facilita la exploración segura de nuevas tecnologías enGoogle Cloud, como las funciones de IA y aprendizaje automático, para mejorar servicios como la detección de fraudes y el asesoramiento financiero personalizado. Para fomentar una cultura de aprendizaje, haz lo siguiente:

  • Anima a los equipos a experimentar, compartir conocimientos y aprender continuamente.
  • Adopta una cultura en la que no se culpe a nadie y en la que los errores se vean como oportunidades de crecimiento y mejora.
  • Crea un entorno psicológicamente seguro que permita a los equipos asumir riesgos y plantear soluciones innovadoras. Los equipos aprenden tanto de los éxitos como de los fracasos, lo que lleva a una organización más resiliente y adaptable.
  • Desarrollar una cultura que facilite el intercambio de conocimientos adquiridos a partir de los procesos de gestión de incidentes y los ejercicios de prueba.

Mantenerse al día de las tecnologías de la nube

El aprendizaje continuo es esencial para entender e implementar nuevas medidas de seguridad, aprovechar las analíticas de datos avanzadas para obtener mejores estadísticas y adoptar soluciones innovadoras que sean relevantes para el sector financiero.

  • Maximiza el potencial de los servicios de Google Cloud manteniéndote al día de los últimos avances, funciones y prácticas recomendadas.
  • Cuando se introduzcan nuevas Google Cloud funciones y servicios, identifica oportunidades para automatizar aún más los procesos, mejorar la seguridad y optimizar el rendimiento y la escalabilidad de tus aplicaciones.
  • Participa en conferencias, seminarios web y sesiones de formación relevantes para ampliar tus conocimientos y descubrir nuevas funciones.
  • Anima a los miembros del equipo a obtener Google Cloud certificaciones para asegurarte de que la organización tiene las habilidades necesarias para triunfar en la nube.