Perspectiva de FSI: Excelencia operativa

Last reviewed 2025-07-28 UTC

En este documento del Google Cloud Framework de Well-Architected: perspectiva de la industria de servicios financieros (FSI), se proporciona una descripción general de los principios y las recomendaciones para compilar, implementar y operar cargas de trabajo sólidas de la industria de servicios financieros (FSI) en Google Cloud. Estas recomendaciones te ayudan a configurar elementos fundamentales, como la observabilidad, la automatización y la escalabilidad. Las recomendaciones de este documento se alinean con el pilar de excelencia operativa del Framework de Well-Architected.

La excelencia operativa es fundamental para las cargas de trabajo de FSI en Google Cloud debido a la naturaleza altamente regulada y sensible de dichas cargas de trabajo. La excelencia operativa garantiza que las soluciones de nube puedan adaptarse a las necesidades cambiantes y cumplir con tus requisitos de valor, rendimiento, seguridad y confiabilidad. Los errores en estas áreas podrían generar pérdidas financieras significativas, sanciones regulatorias y daños a la reputación.

La excelencia operativa proporciona los siguientes beneficios para las cargas de trabajo de las FSI:

  • Mantener la confianza y la reputación: Las instituciones financieras dependen en gran medida de la confianza de sus clientes. Las interrupciones operativas o las vulneraciones de seguridad pueden erosionar gravemente esta confianza y provocar la pérdida de clientes. La excelencia operativa ayuda a minimizar estos riesgos.
  • Cumple con requisitos estrictos de cumplimiento normativo: El FSI está sujeto a numerosas y complejas reglamentaciones, como las siguientes:

    Los procesos operativos, la supervisión y la administración de incidentes sólidos son fundamentales para demostrar el cumplimiento de las reglamentaciones y evitar sanciones.

  • Garantizar la continuidad y la resiliencia de la empresa: Los mercados y servicios financieros suelen operar de forma continua. Por lo tanto, la alta disponibilidad y la recuperación ante desastres eficaz son fundamentales. Los principios de excelencia operativa guían el diseño y la implementación de sistemas resilientes. El pilar de confiabilidad proporciona más orientación en esta área.

  • Protección de datos sensibles: Las instituciones financieras manejan grandes cantidades de datos financieros y de clientes altamente sensibles. Los controles operativos sólidos, la supervisión de la seguridad y la respuesta rápida ante incidentes son fundamentales para evitar las filtraciones de datos y mantener la privacidad. El pilar de seguridad proporciona más orientación en esta área.

  • Optimiza el rendimiento para las aplicaciones críticas: Muchas aplicaciones financieras, como las plataformas de trading y las estadísticas en tiempo real, exigen un alto rendimiento y una latencia baja. Para cumplir con estos requisitos de rendimiento, necesitas un diseño de procesamiento, redes y almacenamiento altamente optimizado. El pilar de optimización del rendimiento proporciona más orientación en esta área.

  • Administra los costos de manera eficaz: Además de la seguridad y la confiabilidad, las instituciones financieras también se preocupan por la eficiencia de los costos. La excelencia operativa incluye prácticas para optimizar el uso de recursos y administrar el gasto en la nube. El pilar de optimización de costos proporciona más orientación en esta área.

Las recomendaciones de excelencia operativa que se incluyen en este documento se correlacionan con los siguientes principios fundamentales:

Define los ANS y los SLO y SLI correspondientes

En muchas organizaciones de FSI, la disponibilidad de las aplicaciones suele clasificarse según las métricas del objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO). Para las aplicaciones críticas para el negocio que atienden a clientes externos, también se puede definir un acuerdo de nivel de servicio (ANS).

Los ANS necesitan un marco de trabajo de métricas que represente el comportamiento del sistema desde la perspectiva de la satisfacción del usuario. Las prácticas de la ingeniería de confiabilidad de sitios (SRE) ofrecen una forma de alcanzar el nivel de confiabilidad del sistema que deseas. Crear un marco de métricas implica definir y supervisar indicadores numéricos clave para comprender el estado del sistema desde la perspectiva del usuario. Por ejemplo, las métricas como la latencia y las tasas de errores cuantifican el rendimiento de un servicio. Estas métricas se denominan indicadores de nivel de servicio (SLI). Desarrollar SLI eficaces es fundamental, ya que proporcionan los datos sin procesar necesarios para evaluar la confiabilidad de forma objetiva.

Para definir ANS, SLI y SLO significativos, ten en cuenta las siguientes recomendaciones:

  • Desarrolla y define SLIs para cada servicio crítico. Establece valores objetivo que definan los niveles de rendimiento aceptables.
  • Desarrolla y define los objetivos de nivel de servicio (SLO) que corresponden a los SLI. Por ejemplo, un SLO puede indicar que el 99.9% de las solicitudes deben tener una latencia inferior a 200 milisegundos.
  • Identifica las acciones correctivas internas que se deben tomar si un servicio no cumple con los SLO. Por ejemplo, para mejorar la resiliencia de la plataforma, es posible que debas enfocar los recursos de desarrollo en solucionar problemas.
  • Valida el requisito del ANS para cada servicio y reconoce el ANS como el contrato formal con los usuarios del servicio.

Ejemplos de niveles de servicio

En la siguiente tabla, se proporcionan ejemplos de SLI, SLO y ANS para una plataforma de pagos:

Métrica comercial SLI SLO ANS
Se realizó correctamente la transacción de pago

Es una medida cuantitativa del porcentaje de todas las transacciones de pago iniciadas que se procesan y confirman correctamente.

Ejemplo: (Cantidad de transacciones exitosas / Cantidad total de transacciones válidas) × 100, medido en un período continuo de 5 minutos.

Es un objetivo interno para mantener un alto porcentaje de transacciones de pago exitosas durante un período específico.

Ejemplo: Mantener un porcentaje de éxito del 99.98% en las transacciones de pago durante un período progresivo de 30 días, sin incluir las solicitudes no válidas ni el mantenimiento planificado.

Una garantía contractual para la tasa de éxito y la velocidad del procesamiento de transacciones de pago

Ejemplo: El proveedor de servicios garantiza que el 99.0% de las transacciones de pago iniciadas por el cliente se procesarán y confirmarán correctamente en un segundo.

Latencia del procesamiento de pagos

Es el tiempo promedio que tarda en procesarse una transacción de pago desde que el cliente la inicia hasta que se recibe la confirmación final.

Ejemplo: Tiempo de respuesta promedio en milisegundos para la confirmación de la transacción, medido en una ventana progresiva de 5 minutos.

Es un objetivo interno para la velocidad a la que se procesan las transacciones de pago.

Ejemplo: Asegúrate de que el 99.5% de las transacciones de pago se procesen en un plazo de 400 milisegundos durante un período progresivo de 30 días.

Compromiso contractual para resolver problemas críticos de procesamiento de pagos en un plazo específico.

Ejemplo: En el caso de problemas críticos con el procesamiento de pagos (definidos como una interrupción que afecta a más del 1% de las transacciones), el proveedor de servicios se compromete a resolver el problema en un plazo de dos horas a partir del momento en que se informa o detecta el problema.

Disponibilidad de la plataforma

Es el porcentaje de tiempo en el que la API principal de procesamiento de pagos y la interfaz de usuario están operativas y son accesibles para los clientes.

Ejemplo: (tiempo operativo total − tiempo de inactividad) ÷ tiempo operativo total × 100, medido por minuto.

Es un objetivo interno para el tiempo de actividad de la plataforma de pagos principal.

Ejemplo: Logra una disponibilidad de la plataforma del 99.995% por mes calendario, sin incluir los períodos de mantenimiento programado.

Compromiso formal y jurídicamente vinculante con los clientes en relación con el tiempo de actividad mínimo de la plataforma de pagos, incluidas las consecuencias por incumplimiento.

Ejemplo: La plataforma mantendrá una disponibilidad mínima del 99.9% por mes calendario, sin incluir los períodos de mantenimiento programado. Si la disponibilidad cae por debajo del nivel mínimo, el cliente recibirá un crédito de servicio del 5% de la tarifa de servicio mensual por cada caída del 0.1%.

Usar los datos de los SLI para supervisar si los sistemas se encuentran dentro de los SLO definidos y garantizar que se cumplan los ANS Con un conjunto de SLI bien definidos, los ingenieros y desarrolladores pueden supervisar las aplicaciones de la FSI en los siguientes niveles:

  • Directamente dentro del servicio en el que se implementan las aplicaciones, como GKE o Cloud Run
  • Usando registros proporcionados por componentes de infraestructura, como el balanceador de cargas.

OpenTelemetry proporciona un estándar de código abierto y un conjunto de tecnologías para capturar todo tipo de telemetría, incluidas las métricas, los registros y los seguimientos. Google Cloud Managed Service para Prometheus proporciona un backend completamente administrado y altamente escalable para las métricas y el funcionamiento de Prometheus a gran escala.

Para obtener más información sobre los SLI, los SLO y los porcentajes de errores aceptables, consulta el manual de SRE.

Para desarrollar paneles y mecanismos de supervisión y alertas eficaces, usa las herramientas de Google Cloud Observability junto con Google Cloud Monitoring. Para obtener información sobre las capacidades de supervisión y detección específicas de la seguridad, consulta el pilar de seguridad.

Definir y probar los procesos de administración de incidentes

Los procesos de administración de incidentes bien definidos y probados con regularidad contribuyen directamente al valor, el rendimiento, la seguridad y la confiabilidad de las cargas de trabajo de FSI en Google Cloud. Estos procesos ayudan a las instituciones financieras a cumplir con sus estrictos requisitos reglamentarios, proteger los datos sensibles, mantener la continuidad del negocio y conservar la confianza de los clientes.

Las pruebas periódicas de los procesos de administración de incidentes brindan los siguientes beneficios:

  • Mantener el rendimiento en condiciones de carga máxima: Las pruebas periódicas de rendimiento y carga ayudan a las instituciones financieras a garantizar que sus aplicaciones e infraestructura basadas en la nube puedan manejar volúmenes máximos de transacciones, volatilidad del mercado y otras situaciones de alta demanda sin degradación del rendimiento. Esta capacidad es fundamental para mantener una experiencia del usuario sin inconvenientes y satisfacer las demandas de los mercados financieros.
  • Identifica posibles cuellos de botella y limitaciones: Las pruebas de estrés llevan los sistemas al límite y permiten que las instituciones financieras identifiquen posibles cuellos de botella y limitaciones de rendimiento antes de que afecten las operaciones críticas. Este enfoque proactivo permite a las instituciones financieras ajustar su infraestructura y sus aplicaciones para lograr un rendimiento y una escalabilidad óptimos.
  • Valida la confiabilidad y la resiliencia: Las pruebas periódicas, incluida la ingeniería del caos o las fallas simuladas, ayudan a validar la confiabilidad y la resiliencia de los sistemas financieros. Estas pruebas garantizan que los sistemas puedan recuperarse de las fallas sin problemas y mantener una alta disponibilidad, lo que es esencial para la continuidad empresarial.
  • Realiza una planificación de capacidad eficaz: Las pruebas de rendimiento proporcionan datos valiosos sobre el uso de recursos en diferentes condiciones de carga, lo que es fundamental para una planificación de capacidad precisa. Las instituciones financieras pueden usar estos datos para anticipar de forma proactiva las necesidades de capacidad futuras y evitar problemas de rendimiento debido a limitaciones de recursos.
  • Implementa correctamente funciones nuevas y cambios de código: La integración de pruebas automatizadas en las canalizaciones de CI/CD ayuda a garantizar que los cambios y las implementaciones nuevas se validen minuciosamente antes de que se lancen en los entornos de producción. Este enfoque reduce significativamente el riesgo de errores y regresiones que podrían provocar interrupciones operativas.
  • Cumplir con los requisitos reglamentarios para la estabilidad del sistema: Las reglamentaciones financieras suelen exigir que las instituciones tengan prácticas de prueba sólidas para garantizar la estabilidad y la confiabilidad de sus sistemas críticos. Las pruebas periódicas ayudan a demostrar el cumplimiento de estos requisitos.

Para definir y probar tus procesos de administración de incidentes, ten en cuenta las siguientes recomendaciones.

Establece procedimientos claros de respuesta ante incidentes

Un conjunto bien establecido de procedimientos de respuesta ante incidentes incluye los siguientes elementos:

  • Roles y responsabilidades definidos para los responsables de incidentes, los investigadores, los comunicadores y los expertos técnicos para garantizar una respuesta eficaz y coordinada
  • Protocolos de comunicación y rutas de escalamiento definidos para garantizar que la información se comparta de manera oportuna y eficaz durante los incidentes
  • Procedimientos documentados en un manual de operaciones o una guía que describe los pasos para la comunicación, la clasificación, la investigación y la resolución.
  • Capacitación y preparación periódicas que les brindan a los equipos el conocimiento y las habilidades para responder de manera eficaz

Implementa pruebas de rendimiento y carga con regularidad

Las pruebas de rendimiento y carga periódicas ayudan a garantizar que las aplicaciones y la infraestructura basadas en la nube puedan controlar las cargas máximas y mantener un rendimiento óptimo. Las pruebas de carga simulan patrones de tráfico realistas. Las pruebas de estrés llevan el sistema a sus límites para identificar posibles cuellos de botella y limitaciones de rendimiento. Puedes usar productos como Cloud Load Balancing y servicios de pruebas de carga para simular el tráfico del mundo real. Según los resultados de las pruebas, puedes ajustar tu infraestructura y aplicaciones en la nube para obtener un rendimiento y una escalabilidad óptimos. Por ejemplo, puedes ajustar la asignación de recursos o configurar las aplicaciones.

Automatiza las pruebas en las canalizaciones de CI/CD

Incorporar pruebas automatizadas en tus canalizaciones de CI/CD ayuda a garantizar la calidad y la confiabilidad de las aplicaciones en la nube, ya que valida los cambios antes de la implementación. Este enfoque reduce significativamente el riesgo de errores y regresiones, y te ayuda a crear un sistema de software más estable y sólido. Puedes incorporar diferentes tipos de pruebas en tus canalizaciones de CI/CD, incluidas las prueba de unidades, las pruebas de integración y las pruebas de extremo a extremo. Usa productos como Cloud Build y Cloud Deploy para crear y administrar tus canalizaciones de CI/CD.

Innova y mejora de forma continua

En el caso de las cargas de trabajo de servicios financieros en la nube, la migración a la nube es solo el paso inicial. La mejora y la innovación continuas son fundamentales por los siguientes motivos:

  • Acelera la innovación: Aprovecha las nuevas tecnologías, como la IA, para mejorar tus servicios.
  • Reducir costos: Elimina las ineficiencias y optimiza el uso de los recursos.
  • Mejora la agilidad: Adáptate rápidamente a los cambios del mercado y las reglamentaciones.
  • Mejora la toma de decisiones: Usa productos de análisis de datos, como BigQuery y Looker, para tomar decisiones fundamentadas.

Para garantizar la innovación y la mejora continua, considera las siguientes recomendaciones.

Realiza retrospectivas periódicas

Las retrospectivas son fundamentales para mejorar continuamente los procedimientos de respuesta ante incidentes y para optimizar las estrategias de prueba en función de los resultados de las pruebas de rendimiento y carga periódicas. Para garantizar que las retrospectivas sean eficaces, haz lo siguiente:

  • Brindarles a los equipos la oportunidad de reflexionar sobre sus experiencias, identificar qué funcionó bien y señalar las áreas de mejora
  • Realiza retrospectivas después de los hitos del proyecto, los incidentes graves o los ciclos de pruebas importantes. Los equipos pueden aprender de los éxitos y los fracasos, y refinar continuamente sus procesos y prácticas.
  • Usa un enfoque estructurado, como el modelo comenzar-detener-continuar, para garantizar que las sesiones de retrospectiva sean productivas y generen pasos prácticos.
  • Usa retrospectivas para identificar áreas en las que se puede mejorar aún más la automatización de la administración de cambios para aumentar la confiabilidad y reducir los riesgos.

Fomenta una cultura de aprendizaje

Una cultura de aprendizaje facilita la exploración segura de nuevas tecnologías enGoogle Cloud, como las capacidades de IA y AA para mejorar servicios como la detección de fraudes y el asesoramiento financiero personalizado. Para promover una cultura de aprendizaje, haz lo siguiente:

  • Incentiva a los equipos a experimentar, compartir conocimientos y aprender de forma continua.
  • Adopta una cultura sin culpabilización, en la que los errores se consideren oportunidades de crecimiento y mejora.
  • Crea un entorno psicológicamente seguro que permita a los equipos asumir riesgos y considerar soluciones innovadoras. Los equipos aprenden de los éxitos y los fracasos, lo que lleva a una organización más resiliente y adaptable.
  • Desarrolla una cultura que facilite el intercambio de conocimientos obtenidos a partir de los procesos de administración de incidentes y los ejercicios de prueba.

Mantente al día con las tecnologías de la nube

El aprendizaje continuo es fundamental para comprender e implementar nuevas medidas de seguridad, aprovechar el análisis de datos avanzado para obtener mejores estadísticas y adoptar soluciones innovadoras que sean relevantes para la industria financiera.

  • Maximiza el potencial de los servicios de Google Cloud manteniéndote al tanto de los avances, las funciones y las prácticas recomendadas más recientes.
  • Cuando se introduzcan nuevas Google Cloud funciones y servicios, identifica oportunidades para automatizar aún más los procesos, mejorar la seguridad y optimizar el rendimiento y la escalabilidad de tus aplicaciones.
  • Participa en conferencias, seminarios en línea y sesiones de capacitación pertinentes para ampliar tus conocimientos y comprender las nuevas capacidades.
  • Alentar a los miembros del equipo a obtener certificaciones para garantizar que la organización tenga las habilidades necesarias para tener éxito en la nubeGoogle Cloud