Well-Architected Framework: Pilar de confiabilidad

Last reviewed 2024-12-30 UTC

El pilar de confiabilidad del Google Cloud Well-Architected Framework proporciona principios y recomendaciones para ayudarte a diseñar, implementar y administrar cargas de trabajo confiables en Google Cloud.

Este documento está dirigido a arquitectos de la nube, desarrolladores, ingenieros de plataformas, administradores e ingenieros de confiabilidad de sitios.

La confiabilidad es la capacidad de un sistema para realizar de forma constante las funciones previstas dentro de las condiciones definidas y mantener un servicio ininterrumpido. Las prácticas recomendadas para la confiabilidad incluyen la redundancia, el diseño tolerante a errores, la supervisión y los procesos de recuperación automatizados.

Como parte de la confiabilidad, la resistencia es la capacidad del sistema para soportar y recuperarse de fallas o interrupciones inesperadas, al mismo tiempo que mantiene el rendimiento. LasGoogle Cloud funciones, como las implementaciones multirregionales, las copias de seguridad automatizadas y las soluciones de recuperación ante desastres, pueden ayudarte a mejorar la resistencia de tu sistema.

La confiabilidad es importante para tu estrategia de nube por muchos motivos, incluidos los siguientes:

  • Tiempo de inactividad mínimo: El tiempo de inactividad puede generar pérdida de ingresos, disminución de la productividad y daños en la reputación. Las arquitecturas resilientes pueden ayudar a garantizar que los sistemas sigan funcionando durante las fallas o se recuperen de ellas de manera eficiente.
  • Experiencia del usuario mejorada: Los usuarios esperan interacciones fluidas con la tecnología. Los sistemas resilientes pueden ayudar a mantener un rendimiento y una disponibilidad constantes, y proporcionan un servicio confiable incluso durante períodos de alta demanda o problemas inesperados.
  • Integridad de los datos: Las fallas pueden provocar la pérdida o corrupción de datos. Los sistemas resilientes implementan mecanismos como copias de seguridad, redundancia y replicación para proteger los datos y garantizar que sigan siendo precisos y accesibles.
  • Continuidad empresarial: Tu empresa depende de la tecnología para las operaciones críticas. Las arquitecturas resilientes pueden ayudar a garantizar la continuidad después de una falla catastrófica, lo que permite que las funciones comerciales continúen sin interrupciones significativas y respalda una recuperación rápida.
  • Cumplimiento: Muchas industrias tienen requisitos reglamentarios para la disponibilidad del sistema y la protección de datos. Las arquitecturas resilientes pueden ayudarte a cumplir con estos estándares, ya que garantizan que los sistemas sigan operativos y seguros.
  • Menores costos a largo plazo: Las arquitecturas resilientes requieren una inversión inicial, pero la resiliencia puede ayudar a reducir los costos con el tiempo, ya que evita el tiempo de inactividad costoso, las correcciones reactivas y permite un uso más eficiente de los recursos.

Mentalidad organizacional

Para que tus sistemas sean confiables, necesitas un plan y una estrategia establecida. Esta estrategia debe incluir educación y la autoridad para priorizar la confiabilidad junto con otras iniciativas.

Establece una expectativa clara de que toda la organización es responsable de la confiabilidad, incluidos los equipos de desarrollo, administración de productos, operaciones, ingeniería de plataformas y de ingeniería de confiabilidad de sitios (SRE). Incluso los grupos enfocados en el negocio, como marketing y ventas, pueden influir en la confiabilidad.

Todos los equipos deben comprender los objetivos de confiabilidad y los riesgos de sus aplicaciones. Los equipos deben ser responsables de cumplir con estos requisitos. Los conflictos entre la confiabilidad y el desarrollo de funciones del producto habituales deben priorizarse y derivarse según corresponda.

Planifica y administra la confiabilidad de forma integral en todas tus funciones y equipos. Considera configurar un Centro de excelencia en la nube (CCoE) que incluya un pilar de confiabilidad. Para obtener más información, consulta Optimiza el proceso de adopción de la nube de tu organización con un centro de excelencia en la nube.

Áreas de enfoque para la confiabilidad

Las actividades que realizas para diseñar, implementar y administrar un sistema confiable se pueden clasificar en las siguientes áreas de enfoque. Cada uno de los principios y las recomendaciones de confiabilidad de este pilar se relaciona con una de estas áreas de enfoque.

  • Delimitación: Para comprender tu sistema, realiza un análisis detallado de su arquitectura. Debes comprender los componentes, cómo funcionan y cómo interactúan, cómo fluyen los datos y las acciones a través del sistema, y qué podría salir mal. Identifica posibles fallas, cuellos de botella y riesgos, lo que te ayuda a tomar medidas para mitigar esos problemas.
  • Observación: Para ayudar a prevenir fallas del sistema, implementa una observación y supervisión integrales y continuas. A través de esta observación, puedes comprender las tendencias e identificar posibles problemas de forma proactiva.
  • Respuesta: Para reducir el impacto de las fallas, responde de manera adecuada y recupera la situación de forma eficiente. Las respuestas automatizadas también pueden ayudar a reducir el impacto de las fallas. Incluso con la planificación y los controles, pueden producirse fallas.
  • Aprendizaje: Para evitar que se repitan las fallas, aprende de cada experiencia y toma las medidas adecuadas.

Principios básicos

Las recomendaciones del pilar de confiabilidad del Framework de Well-Architected se correlacionan con los siguientes principios básicos:

Colaboradores

Autores:

Otros colaboradores: