Well-Architected Framework: pilar de excelencia operativa

Last reviewed 2025-02-14 UTC

El pilar de excelencia operativa del Google Cloud framework Well-Architected proporciona recomendaciones para operar cargas de trabajo de forma eficiente en Google Cloud. La excelencia operativa en la nube implica diseñar, implementar y gestionar soluciones en la nube que aporten valor, rendimiento, seguridad y fiabilidad. Las recomendaciones de este pilar te ayudan a mejorar y adaptar continuamente las cargas de trabajo para satisfacer las necesidades dinámicas y en constante evolución de la nube.

El pilar de excelencia operativa es relevante para las siguientes audiencias:

  • Directores y líderes: un marco para establecer y mantener la excelencia operativa en la nube, así como para asegurar que las inversiones en la nube aporten valor y respalden los objetivos empresariales.
  • Equipos de operaciones en la nube: orientación para gestionar incidentes y problemas, planificar la capacidad, optimizar el rendimiento y gestionar los cambios.
  • Ingenieros de fiabilidad del sitio (SRE): prácticas recomendadas que te ayudan a conseguir altos niveles de fiabilidad del servicio, como la monitorización, la respuesta ante incidentes y la automatización.
  • Arquitectos e ingenieros de la nube: requisitos operativos y prácticas recomendadas para las fases de diseño e implementación, que ayudan a asegurar que las soluciones se diseñen para ofrecer eficiencia operativa y escalabilidad.
  • Equipos de DevOps: orientación sobre automatización, flujos de procesamiento de CI/CD y gestión de cambios para ayudar a ofrecer software de forma más rápida y fiable.

Para lograr la excelencia operativa, debes adoptar la automatización, la orquestación y las estadísticas basadas en datos. La automatización ayuda a eliminar el esfuerzo. También agiliza y crea medidas de protección en torno a las tareas repetitivas. La orquestación ayuda a coordinar procesos complejos. Las estadísticas basadas en datos permiten tomar decisiones fundamentadas. Si sigues estas prácticas, podrás optimizar las operaciones en la nube, reducir costes, mejorar la disponibilidad de los servicios y reforzar la seguridad.

La excelencia operativa en la nube va más allá de la competencia técnica en las operaciones en la nube. Implica un cambio cultural que fomenta el aprendizaje y la experimentación continuos. Los equipos deben tener la capacidad de innovar, iterar y adoptar una mentalidad de crecimiento. Una cultura de excelencia operativa fomenta un entorno de colaboración en el que se anima a las personas a compartir ideas, cuestionar suposiciones e impulsar mejoras.

Para consultar los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: excelencia operativa del framework Well-Architected.

Principios básicos

Las recomendaciones del pilar de excelencia operativa del framework Well-Architected se corresponden con los siguientes principios básicos:

  • Asegurar la preparación operativa y el rendimiento con CloudOps: asegúrate de que las soluciones en la nube cumplan los requisitos operativos y de rendimiento definiendo objetivos de nivel de servicio (SLOs) y realizando una monitorización exhaustiva, pruebas de rendimiento y planificación de la capacidad.
  • Gestionar incidentes y problemas: minimizar el impacto de los incidentes en la nube y evitar que se repitan mediante una observabilidad integral, procedimientos de respuesta a incidentes claros, retrospectivas exhaustivas y medidas preventivas.
  • Gestionar y optimizar los recursos en la nube: optimiza y gestiona los recursos en la nube mediante estrategias como el ajuste de tamaño y el escalado automático, y usando herramientas eficaces de monitorización de costes.
  • Automatizar y gestionar los cambios: automatiza los procesos, optimiza la gestión de los cambios y reduce la carga de trabajo manual.
  • Mejorar e innovar continuamente: céntrate en las mejoras constantes y en la introducción de nuevas soluciones para mantener la competitividad.

Colaboradores

Autores:

Otros colaboradores:

Asegurar la preparación operativa y el rendimiento con CloudOps

Este principio del pilar de excelencia operativa del Google Cloud framework Well-Architected te ayuda a asegurar la preparación operativa y el rendimiento de tus cargas de trabajo en la nube. Se centra en establecer expectativas y compromisos claros sobre el rendimiento del servicio, implementar una monitorización y alertas sólidas, realizar pruebas de rendimiento y planificar de forma proactiva las necesidades de capacidad.

Descripción general de los principios

Cada organización puede interpretar la disponibilidad operativa de una forma diferente. La preparación operativa es la forma en que tu organización se prepara para operar cargas de trabajo en Google Cloudcorrectamente. Para operar una carga de trabajo en la nube compleja y multinivel, es necesario planificar cuidadosamente tanto la puesta en marcha como las operaciones del day-2. Estas operaciones se suelen denominar CloudOps.

Áreas de enfoque de la preparación operativa

La preparación operativa consta de cuatro áreas de enfoque. Cada área de enfoque consta de un conjunto de actividades y componentes necesarios para preparar el funcionamiento de una aplicación o un entorno complejos en Google Cloud. En la siguiente tabla se enumeran los componentes y las actividades de cada área de enfoque:

Área de enfoque de la preparación operativa Actividades y componentes
Mano de obra
  • Definir roles y responsabilidades claros para los equipos que gestionan y operan los recursos en la nube.
  • Asegurarse de que los miembros del equipo tengan las habilidades adecuadas.
  • Desarrollar un programa de aprendizaje.
  • Establecer una estructura de equipo clara.
  • Contratar a los profesionales necesarios.
Procesos
  • Observabilidad.
  • Gestionar interrupciones del servicio.
  • Entrega en la nube.
  • Operaciones fundamentales en la nube.
Herramientas Herramientas necesarias para admitir procesos de CloudOps.
Gestión
  • Niveles de servicio e informes.
  • Información financiera de Cloud.
  • Modelo operativo de la nube.
  • Juntas de revisión y gobernanza de la arquitectura.
  • Arquitectura y cumplimiento de Cloud.

Recomendaciones

Para asegurar la disponibilidad y el rendimiento operativos mediante CloudOps, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento se relaciona con una o varias de las áreas de enfoque de la preparación operativa.

Definir SLOs y SLAs

Una de las responsabilidades principales del equipo de operaciones en la nube es definir los objetivos de nivel de servicio (SLOs) y los acuerdos de nivel de servicio (SLAs) de todas las cargas de trabajo críticas. Esta recomendación está relacionada con el área de enfoque de la preparación operativa de la gobernanza.

Los objetivos de nivel de servicio deben ser específicos, medibles, alcanzables, relevantes y con plazos concretos (SMART), y deben reflejar el nivel de servicio y el rendimiento que quieres.

  • Específico: articula claramente el nivel de servicio y el rendimiento necesarios.
  • Medible: cuantificable y monitorizable.
  • Alcanzable: se puede lograr con las capacidades y los recursos de tu organización.
  • Relevante: alineado con los objetivos y las prioridades de la empresa.
  • Acotado en el tiempo: tiene un plazo definido para la medición y la evaluación.

Por ejemplo, un SLO de una aplicación web podría ser "disponibilidad del 99,9 %" o "tiempo de respuesta medio inferior a 200 ms". Estos SLOs definen claramente el nivel de servicio y el rendimiento necesarios para la aplicación web, y se pueden medir y monitorizar a lo largo del tiempo.

Los ANS definen los compromisos con los clientes en relación con la disponibilidad, el rendimiento y la asistencia de los servicios, incluidas las sanciones o las soluciones en caso de incumplimiento. Los SLAs deben incluir detalles específicos sobre los servicios que se prestan, el nivel de servicio que se puede esperar, las responsabilidades tanto del proveedor de servicios como del cliente, y las sanciones o soluciones en caso de incumplimiento. Los ANSs son un acuerdo contractual entre las dos partes que garantiza que ambas tengan una idea clara de las expectativas y las obligaciones asociadas al servicio en la nube.

Google Cloud proporciona herramientas como Cloud Monitoring e indicadores de nivel de servicio para ayudarte a definir y monitorizar los SLOs. Cloud Monitoring ofrece funciones de monitorización y observabilidad completas que permiten a tu organización recoger y analizar métricas relacionadas con la disponibilidad, el rendimiento y la latencia de las aplicaciones y los servicios basados en la nube. Los indicadores de nivel de servicio son métricas específicas que puedes usar para medir y monitorizar los objetivos de nivel de servicio a lo largo del tiempo. Si utilizas estas herramientas, podrás monitorizar y gestionar los servicios en la nube de forma eficaz, así como asegurarte de que cumplen los objetivos y los acuerdos de nivel de servicio.

Definir y comunicar claramente los SLOs y los SLAs de todos tus servicios en la nube críticos te ayudará a asegurar la fiabilidad y el rendimiento de las aplicaciones y los servicios que hayas implementado.

Implementar una observabilidad completa

Para obtener visibilidad en tiempo real del estado y el rendimiento de tu entorno de nube, te recomendamos que uses una combinación de herramientas de observabilidad de Google Cloud y soluciones de terceros. Esta recomendación está relacionada con las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Implementar una combinación de soluciones de observabilidad te proporciona una estrategia de observabilidad completa que abarca varios aspectos de tu infraestructura y aplicaciones en la nube. Google Cloud Observability es una plataforma unificada para recoger, analizar y visualizar métricas, registros y trazas de variosGoogle Cloud servicios, aplicaciones y fuentes externas. Con Cloud Monitoring, puedes obtener información valiosa sobre la utilización de recursos, las características de rendimiento y el estado general de tus recursos.

Para garantizar una monitorización completa, monitoriza métricas importantes que se correspondan con los indicadores de estado del sistema, como la utilización de la CPU, el uso de la memoria, el tráfico de red, las operaciones de E/S de disco y los tiempos de respuesta de las aplicaciones. También debes tener en cuenta las métricas específicas de tu empresa. Si monitorizas estas métricas, puedes identificar posibles cuellos de botella, problemas de rendimiento y limitaciones de recursos. Además, puede configurar alertas para notificar de forma proactiva a los equipos correspondientes sobre posibles problemas o anomalías.

Para mejorar aún más tus capacidades de monitorización, puedes integrar soluciones de terceros con Google Cloud Observability. Estas soluciones pueden proporcionar funciones adicionales, como analíticas avanzadas, detección de anomalías basada en aprendizaje automático y funciones de gestión de incidentes. Esta combinación de herramientas de observabilidad de Google Cloud y soluciones de terceros te permite crear un ecosistema de monitorización sólido y personalizable que se adapte a tus necesidades específicas. Si utilizas esta combinación, puedes identificar y resolver problemas de forma proactiva, optimizar el uso de los recursos y asegurar la fiabilidad y la disponibilidad generales de tus aplicaciones y servicios en la nube.

Implementar pruebas de rendimiento y de carga

Realizar pruebas de rendimiento periódicas te ayuda a asegurarte de que tus aplicaciones e infraestructura basadas en la nube puedan gestionar las cargas máximas y mantener un rendimiento óptimo. Las pruebas de carga simulan patrones de tráfico realistas. Las pruebas de estrés llevan el sistema al límite para identificar posibles cuellos de botella y limitaciones de rendimiento. Esta recomendación está relacionada con las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Herramientas como Cloud Load Balancing y los servicios de pruebas de carga pueden ayudarte a simular patrones de tráfico reales y a someter tus aplicaciones a pruebas de estrés. Estas herramientas proporcionan información valiosa sobre el comportamiento de tu sistema en diversas condiciones de carga y pueden ayudarte a identificar las áreas que requieren optimización.

En función de los resultados de las pruebas de rendimiento, puedes tomar decisiones para optimizar tu infraestructura en la nube y tus aplicaciones con el fin de conseguir un rendimiento y una escalabilidad óptimos. Esta optimización puede implicar ajustar la asignación de recursos, configurar los parámetros o implementar mecanismos de almacenamiento en caché.

Por ejemplo, si detecta que su aplicación se ralentiza durante periodos de mucho tráfico, puede que tenga que aumentar el número de máquinas virtuales o contenedores asignados a la aplicación. También puede que tenga que ajustar la configuración de su servidor web o base de datos para mejorar el rendimiento.

Si realizas pruebas de rendimiento periódicamente e implementas las optimizaciones necesarias, puedes asegurarte de que tus aplicaciones e infraestructura basadas en la nube siempre funcionen con un rendimiento óptimo y ofrezcan una experiencia fluida y rápida a tus usuarios. De esta forma, podrás mantener una ventaja competitiva y ganarte la confianza de tus clientes.

Planificar y gestionar la capacidad

Planificar de forma proactiva las necesidades de capacidad futuras, tanto orgánicas como inorgánicas, te ayuda a asegurar el buen funcionamiento y la escalabilidad de tus sistemas basados en la nube. Esta recomendación está relacionada con el área de enfoque de preparación operativa de los procesos.

Para planificar la capacidad futura, es necesario conocer y gestionar las cuotas de varios recursos, como las instancias de computación, el almacenamiento y las solicitudes de API. Al analizar los patrones de uso históricos, las proyecciones de crecimiento y los requisitos empresariales, puede anticipar con precisión los requisitos de capacidad futuros. Puedes usar herramientas como Cloud Monitoring y BigQuery para recoger y analizar datos de uso, identificar tendencias y predecir la demanda futura.

Los patrones de uso históricos proporcionan información valiosa sobre la utilización de los recursos a lo largo del tiempo. Si examinas métricas como el uso de la CPU, el uso de la memoria y el tráfico de red, puedes identificar los periodos de alta demanda y los posibles cuellos de botella. Además, puedes estimar las necesidades de capacidad futuras haciendo proyecciones de crecimiento basadas en factores como el crecimiento de la base de usuarios, los nuevos productos y funciones, y las campañas de marketing. Cuando evalúes las necesidades de capacidad, también debes tener en cuenta los requisitos empresariales, como los acuerdos de nivel de servicio y los objetivos de rendimiento.

Cuando determines el tamaño de los recursos de una carga de trabajo, ten en cuenta los factores que pueden afectar al uso de los recursos. Las variaciones estacionales, como los periodos de compras navideñas o las rebajas de fin de trimestre, pueden provocar picos temporales en la demanda. Los eventos programados, como los lanzamientos de productos o las campañas de marketing, también pueden aumentar el tráfico de forma significativa. Para asegurarte de que tu sistema principal y de recuperación tras fallos puedan gestionar picos de demanda inesperados, planifica una capacidad que pueda admitir una conmutación por error correcta durante interrupciones como desastres naturales y ciberataques.

El autoescalado es una estrategia importante para ajustar dinámicamente los recursos de la nube en función de las fluctuaciones de la carga de trabajo. Si usas políticas de autoescalado, puedes escalar automáticamente las instancias de computación, el almacenamiento y otros recursos en respuesta a los cambios en la demanda. De esta forma, se asegura un rendimiento óptimo durante los periodos de mayor actividad y se minimizan los costes cuando la utilización de los recursos es baja. Los algoritmos de autoescalado usan métricas como el uso de la CPU, el uso de la memoria y la profundidad de la cola para determinar cuándo escalar los recursos.

Monitorizar y optimizar continuamente

Para gestionar y optimizar las cargas de trabajo en la nube, debes establecer un proceso para monitorizar y analizar continuamente las métricas de rendimiento. Esta recomendación se aplica a las siguientes áreas de interés de la preparación operativa: procesos y herramientas.

Para establecer un proceso de monitorización y análisis continuos, debe hacer un seguimiento, recoger y evaluar los datos relacionados con varios aspectos de su entorno de nube. Con estos datos, puede identificar de forma proactiva las áreas de mejora, optimizar el uso de los recursos y asegurarse de que su infraestructura de nube cumple o supera sus expectativas de rendimiento.

Un aspecto importante de la monitorización del rendimiento es revisar periódicamente los registros y los rastreos. Los registros proporcionan información valiosa sobre los eventos, errores y advertencias del sistema. Los rastreos proporcionan información detallada sobre el flujo de solicitudes a través de tu aplicación. Al analizar los registros y los seguimientos, puede identificar posibles problemas, determinar las causas raíz de los problemas y comprender mejor cómo se comportan sus aplicaciones en diferentes condiciones. Las métricas como el tiempo de ida y vuelta entre servicios pueden ayudarte a identificar y comprender los cuellos de botella de tus cargas de trabajo.

Además, puedes usar técnicas de optimización del rendimiento para mejorar significativamente los tiempos de respuesta de las aplicaciones y la eficiencia general. A continuación, se incluyen ejemplos de técnicas que puedes usar:

  • Almacenamiento en caché: almacena en memoria los datos a los que se accede con frecuencia para reducir la necesidad de repetir consultas de bases de datos o llamadas a la API.
  • Optimización de la base de datos: usa técnicas como la indexación y la optimización de consultas para mejorar el rendimiento de las operaciones de la base de datos.
  • Perfil de código: identifica las áreas de tu código que consumen recursos excesivos o provocan problemas de rendimiento.

Si aplicas estas técnicas, podrás optimizar tus aplicaciones y asegurarte de que se ejecuten de forma eficiente en la nube.

Gestionar incidentes y problemas

Este principio del pilar de excelencia operativa del Google Cloud framework Well-Architected proporciona recomendaciones para ayudarte a gestionar los incidentes y los problemas relacionados con tus cargas de trabajo en la nube. Implica implementar una monitorización y una observabilidad integrales, establecer procedimientos claros de respuesta ante incidentes, llevar a cabo análisis exhaustivos de las causas raíz e implementar medidas preventivas. Muchos de los temas que se tratan en este principio se abordan en detalle en el pilar Fiabilidad.

Descripción general de los principios

La gestión de incidentes y la gestión de problemas son componentes importantes de un entorno de operaciones funcional. La forma en que respondes, categorizas y resuelves las incidencias de diferente gravedad puede afectar significativamente a tus operaciones. También debes hacer ajustes de forma proactiva y continua para optimizar la fiabilidad y el rendimiento. Un proceso eficiente de gestión de incidentes y problemas se basa en los siguientes elementos fundamentales:

  • Monitorización continua: identifica y resuelve problemas rápidamente.
  • Automatización: optimiza las tareas y mejora la eficiencia.
  • Orquestación: coordina y gestiona los recursos de la nube de forma eficaz.
  • Estadísticas basadas en datos: optimiza las operaciones en la nube y toma decisiones fundamentadas.

Estos elementos te ayudan a crear un entorno de nube resistente que pueda hacer frente a una amplia gama de retos e interrupciones. Estos elementos también pueden ayudarle a reducir el riesgo de que se produzcan incidentes y tiempos de inactividad costosos, así como a lograr una mayor agilidad y éxito empresarial. Estos elementos fundamentales se distribuyen en las cuatro áreas de enfoque de la preparación operativa: personal, procesos, herramientas y gobernanza.

Recomendaciones

Para gestionar los incidentes y los problemas de forma eficaz, ten en cuenta las recomendaciones de las secciones siguientes. Cada recomendación de este documento está relacionada con una o varias de las áreas de enfoque de la preparación operativa.

Establecer procedimientos claros de respuesta a incidentes

Es fundamental que los roles y las responsabilidades estén bien definidos para garantizar una respuesta eficaz y coordinada a los incidentes. Además, los protocolos de comunicación claros y las rutas de derivación ayudan a que la información se comparta de forma rápida y eficaz durante un incidente. Esta recomendación se aplica a las siguientes áreas de enfoque de la preparación operativa: personal, procesos y herramientas.

Para establecer procedimientos de respuesta ante incidentes, debe definir los roles y las expectativas de cada miembro del equipo, como los responsables a cargo del incidente, los investigadores, los comunicadores y los expertos técnicos. Para establecer las vías de comunicación y derivación, se deben identificar los contactos importantes, configurar los canales de comunicación y definir el proceso para derivar los incidentes a niveles superiores de gestión cuando sea necesario. La formación y la preparación periódicas ayudan a que los equipos tengan los conocimientos y las habilidades necesarios para responder a los incidentes de forma eficaz.

Si documentas los procedimientos de respuesta a incidentes en un runbook o playbook, puedes proporcionar una guía de referencia estandarizada para que los equipos la sigan durante un incidente. El manual de operaciones debe describir los pasos que se deben seguir en cada fase del proceso de respuesta a incidentes, incluidas la comunicación, la clasificación, la investigación y la resolución. También debe incluir información sobre las herramientas y los recursos pertinentes, así como la información de contacto del personal importante. Debes revisar y actualizar periódicamente el manual de operaciones para asegurarte de que siga siendo actual y eficaz.

Centralizar la gestión de incidentes

Para hacer un seguimiento y una gestión eficaces durante todo el ciclo de vida del incidente, te recomendamos que utilices un sistema de gestión de incidentes centralizado. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Un sistema de gestión de incidentes centralizado ofrece las siguientes ventajas:

  • Mayor visibilidad: al consolidar todos los datos relacionados con los incidentes en una única ubicación, los equipos no tienen que buscar contexto en varios canales o sistemas. Este enfoque ahorra tiempo y reduce la confusión, además de ofrecer a las partes interesadas una visión completa del incidente, incluido su estado, su impacto y su progreso.
  • Mejor coordinación y colaboración: un sistema centralizado proporciona una plataforma unificada para la comunicación y la gestión de tareas. Promueve la colaboración fluida entre los diferentes departamentos y funciones que participan en la respuesta ante incidentes. De esta forma, todos tienen acceso a información actualizada y se reduce el riesgo de que haya problemas de comunicación y falta de coordinación.
  • Mayor rendición de cuentas y responsabilidad: un sistema de gestión de incidentes centralizado permite a tu organización asignar tareas a personas o equipos específicos y asegura que las responsabilidades se definan y se monitoricen claramente. Este enfoque fomenta la responsabilidad y anima a los miembros del equipo a resolver los problemas de forma proactiva, ya que pueden monitorizar fácilmente sus avances y contribuciones.

Un sistema de gestión de incidencias centralizado debe ofrecer funciones sólidas para el seguimiento de incidencias, la asignación de tareas y la gestión de comunicaciones. Estas funciones te permiten personalizar flujos de trabajo, definir prioridades e integrarte con otros sistemas, como herramientas de monitorización y sistemas de asistencia.

Si implementas un sistema de gestión de incidentes centralizado, podrás optimizar los procesos de respuesta a incidentes de tu organización, mejorar la colaboración y aumentar la visibilidad. De esta forma, se reducen los tiempos de resolución de incidentes y los periodos de inactividad, y se mejora la satisfacción de los clientes. También ayuda a fomentar una cultura de mejora continua, ya que puedes aprender de incidentes anteriores e identificar áreas de mejora.

Realizar revisiones exhaustivas tras los incidentes

Después de que se produzca un incidente, debes llevar a cabo una revisión detallada posterior al incidente, también conocida como post mortem, para identificar la causa principal, los factores que han contribuido y las lecciones aprendidas. Esta revisión exhaustiva te ayudará a evitar incidentes similares en el futuro. Esta recomendación se aplica a las siguientes áreas de enfoque de la preparación operativa: procesos y gobernanza.

El proceso de análisis posterior a un incidente debe contar con un equipo multidisciplinar que tenga experiencia en varios aspectos del incidente. El equipo debe reunir toda la información pertinente mediante entrevistas, revisión de documentación e inspecciones del sitio. Se debe crear una cronología de los eventos para establecer la secuencia de acciones que llevaron al incidente.

Una vez que el equipo haya recogido la información necesaria, deberá llevar a cabo un análisis de la causa raíz para determinar los factores que han provocado el incidente. En este análisis se deben identificar tanto la causa inmediata como los problemas sistémicos que han contribuido al incidente.

Además de identificar la causa principal, el equipo de PIR debe identificar cualquier otro factor que haya podido contribuir al incidente. Entre estos factores se incluyen los errores humanos, los fallos de los equipos o los factores organizativos, como los fallos en la comunicación y la falta de formación.

En el informe posterior al incidente se deben documentar las conclusiones de la investigación, incluida la cronología de los eventos, el análisis de las causas principales y las acciones recomendadas. El informe es un recurso valioso para implementar medidas correctivas y evitar que se repitan. El informe debe compartirse con todas las partes interesadas pertinentes y utilizarse para desarrollar formación y procedimientos de seguridad.

Para que el proceso de análisis posterior a la incidencia sea eficaz, tu organización debe fomentar una cultura en la que no se culpe a nadie y que se centre en el aprendizaje y la mejora en lugar de en asignar responsabilidades. Esta cultura anima a los empleados a informar de los incidentes sin temor a represalias, lo que le permite abordar problemas sistémicos y hacer mejoras significativas.

Si llevas a cabo análisis posteriores a incidentes exhaustivos e implementas medidas correctivas basadas en las conclusiones, puedes reducir significativamente el riesgo de que se produzcan incidentes similares en el futuro. Este enfoque proactivo de la investigación y la prevención de incidentes ayuda a crear un entorno de trabajo más seguro y eficiente para todos los implicados.

Mantener una base de conocimientos

Una base de conocimientos de problemas conocidos, soluciones y guías de solución de problemas es esencial para la gestión y la resolución de incidentes. Los miembros del equipo pueden usar la base de conocimientos para identificar y solucionar rápidamente los problemas habituales. Implementar una base de conocimientos ayuda a reducir la necesidad de derivaciones y mejora la eficiencia general. Esta recomendación se aplica a las siguientes áreas de interés de la preparación operativa: personal y procesos.

Una de las principales ventajas de una base de conocimientos es que permite a los equipos aprender de experiencias pasadas y evitar repetir errores. Al registrar y compartir soluciones a problemas conocidos, los equipos pueden desarrollar una comprensión colectiva de cómo resolver problemas habituales y de las prácticas recomendadas para la gestión de incidentes. El uso de una base de conocimientos ahorra tiempo y esfuerzo, y ayuda a estandarizar los procesos y a garantizar la coherencia en la resolución de incidentes.

Además de ayudar a reducir los tiempos de resolución de incidentes, una base de conocimientos fomenta el intercambio de conocimientos y la colaboración entre los equipos. Gracias a un repositorio central de información, los equipos pueden acceder fácilmente a la base de conocimientos y contribuir a ella, lo que fomenta una cultura de aprendizaje y mejora continuos. Esta cultura anima a los equipos a compartir sus conocimientos y experiencias, lo que da lugar a una base de conocimientos más completa y valiosa.

Para crear y gestionar una base de conocimientos de forma eficaz, utiliza las herramientas y tecnologías adecuadas. Las plataformas de colaboración, como Google Workspace, son ideales para ello, ya que te permiten crear, editar y compartir documentos fácilmente de forma colaborativa. Estas herramientas también admiten el control de versiones y el seguimiento de cambios, lo que asegura que la base de conocimientos se mantenga actualizada y sea precisa.

Facilita el acceso a la base de conocimientos a todos los equipos pertinentes. Para ello, puede integrar la base de conocimientos con los sistemas de gestión de incidencias que ya tenga o proporcionar un portal o un sitio de intranet específicos. Una base de conocimientos disponible permite a los equipos acceder rápidamente a la información que necesitan para resolver los incidentes de forma eficiente. Esta disponibilidad ayuda a reducir el tiempo de inactividad y a minimizar el impacto en las operaciones empresariales.

Revisa y actualiza periódicamente la base de conocimientos para asegurarte de que sigue siendo relevante y útil. Monitorizar los informes de incidencias, identificar problemas y tendencias habituales, e incorporar nuevas soluciones y guías de solución de problemas a la base de conocimientos. Una base de conocimientos actualizada ayuda a tus equipos a resolver los incidentes de forma más rápida y eficaz.

Automatizar la respuesta a incidentes

La automatización ayuda a optimizar los procesos de respuesta y corrección de incidentes. Te permite abordar las brechas de seguridad y los fallos del sistema de forma rápida y eficiente. Si usas Google Cloud productos como funciones de Cloud Run o Cloud Run, puedes automatizar varias tareas que suelen ser manuales y requieren mucho tiempo. Esta recomendación está relacionada con las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

La respuesta a incidentes automática ofrece las siguientes ventajas:

  • Reducción de los tiempos de detección y resolución de incidentes: las herramientas automatizadas pueden monitorizar continuamente los sistemas y las aplicaciones, detectar actividades sospechosas o anómalas en tiempo real y notificar a las partes interesadas o responder sin intervención. Esta automatización te permite identificar posibles amenazas o problemas antes de que se conviertan en incidentes graves. Cuando se detecta un incidente, las herramientas automatizadas pueden activar acciones de corrección predefinidas, como aislar los sistemas afectados, poner en cuarentena los archivos maliciosos o revertir los cambios para restaurar el sistema a un estado correcto conocido.
  • Menor carga para los equipos de seguridad y operaciones: la respuesta automatizada a incidentes permite que los equipos de seguridad y operaciones se centren en tareas más estratégicas. Al automatizar tareas rutinarias y repetitivas, como recoger información de diagnóstico o activar alertas, tu organización puede liberar personal para que se encargue de incidentes más complejos y críticos. Esta automatización puede mejorar la eficacia y la eficiencia generales de la respuesta a incidentes.
  • Mayor coherencia y precisión del proceso de corrección: las herramientas automatizadas pueden asegurar que las acciones de corrección se apliquen de forma uniforme en todos los sistemas afectados, lo que minimiza el riesgo de que se produzcan errores o incoherencias. Esta estandarización del proceso de corrección ayuda a minimizar el impacto de los incidentes en los usuarios y en la empresa.

Gestionar y optimizar recursos en la nube

Este principio del pilar de excelencia operativa del Google Cloud framework Well-Architected proporciona recomendaciones para ayudarte a gestionar y optimizar los recursos que utilizan tus cargas de trabajo en la nube. Implica ajustar el tamaño de los recursos en función del uso y la demanda reales, usar el autoescalado para la asignación dinámica de recursos, implementar estrategias de optimización de costes y revisar periódicamente el uso y los costes de los recursos. Muchos de los temas que se tratan en este principio se explican en detalle en el pilar Optimización de costes.

Descripción general de los principios

La gestión y la optimización de los recursos en la nube desempeñan un papel fundamental a la hora de optimizar el gasto en la nube, el uso de recursos y la eficiencia de la infraestructura. Incluye varias estrategias y prácticas recomendadas para maximizar el valor y la rentabilidad de tu inversión en la nube.

Este pilar se centra en la optimización, que va más allá de la reducción de costes. Se centra en los siguientes objetivos:

  • Eficiencia: usa la automatización y las analíticas de datos para alcanzar el máximo rendimiento y ahorrar costes.
  • Rendimiento: escalar los recursos fácilmente para satisfacer las demandas fluctuantes y ofrecer resultados óptimos.
  • Escalabilidad: adaptar la infraestructura y los procesos para dar cabida a un crecimiento rápido y a cargas de trabajo diversas.

Si te centras en estos objetivos, conseguirás un equilibrio entre el coste y la funcionalidad. Puede tomar decisiones fundamentadas sobre el aprovisionamiento, el escalado y la migración de recursos. Además, obtendrá valiosas estadísticas sobre los patrones de consumo de recursos, lo que le permitirá identificar y abordar de forma proactiva posibles problemas antes de que se agraven.

Recomendaciones

Para gestionar y optimizar los recursos, tenga en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento está relacionada con una o varias de las áreas de enfoque de la preparación operativa.

Ajustar el tamaño de los recursos

Para gestionar los recursos en la nube de forma eficiente, es fundamental monitorizar continuamente el uso de los recursos y ajustar su asignación para que se adapte a la demanda real. Si se aprovisionan recursos en exceso, se pueden generar costes innecesarios, mientras que, si se aprovisionan en defecto, se pueden producir cuellos de botella en el rendimiento que afecten al rendimiento de las aplicaciones y a la experiencia de usuario. Para conseguir un equilibrio óptimo, debes adoptar un enfoque proactivo para ajustar el tamaño de los recursos de la nube. Esta recomendación está relacionada con el área de enfoque de la preparación operativa de la gobernanza.

Cloud Monitoring y Recommender pueden ayudarte a identificar oportunidades para reajustar el tamaño. Cloud Monitoring proporciona visibilidad en tiempo real de las métricas de utilización de recursos. Esta visibilidad te permite monitorizar los patrones de uso de los recursos e identificar posibles ineficiencias. Recommender analiza los datos de uso de los recursos para hacer recomendaciones inteligentes sobre cómo optimizar la asignación de recursos. Con estas herramientas, puedes obtener información valiosa sobre el uso de los recursos y tomar decisiones fundamentadas sobre cómo dimensionarlos correctamente.

Además de Cloud Monitoring y Recommender, puedes usar métricas personalizadas para activar acciones de ajuste de tamaño automáticas. Las métricas personalizadas le permiten monitorizar métricas de utilización de recursos específicas que son relevantes para sus aplicaciones y cargas de trabajo. También puedes configurar alertas para notificar a los administradores cuando se alcancen umbrales predefinidos. Los administradores pueden tomar las medidas necesarias para ajustar la asignación de recursos. Este enfoque proactivo asegura que los recursos se escalen a tiempo, lo que ayuda a optimizar los costes de la nube y a evitar problemas de rendimiento.

Usar el autoescalado

El autoescalado de los recursos de computación y de otro tipo ayuda a garantizar el rendimiento óptimo y la eficiencia de costes de tus aplicaciones basadas en la nube. El autoescalado te permite ajustar dinámicamente la capacidad de tus recursos en función de las fluctuaciones de la carga de trabajo, de modo que tengas los recursos que necesitas cuando los necesitas y puedas evitar el aprovisionamiento excesivo y los costes innecesarios. Esta recomendación está relacionada con el área de enfoque de los procesos de preparación operativa.

Para satisfacer las diversas necesidades de las diferentes aplicaciones y cargas de trabajo,Google Cloud ofrece varias opciones de escalado automático, entre las que se incluyen las siguientes:

  • Los grupos de instancias gestionados (MIGs) de Compute Engine son grupos de VMs que se gestionan y escalan como una sola entidad. Con los MIGs, puedes definir políticas de autoescalado que especifiquen el número mínimo y máximo de VMs que se deben mantener en el grupo, así como las condiciones que activan el autoescalado. Por ejemplo, puedes configurar una política para añadir VMs a un MIG cuando el uso de la CPU alcance un determinado umbral y para quitar VMs cuando el uso descienda por debajo de otro umbral.
  • El autoescalado de Google Kubernetes Engine (GKE) ajusta dinámicamente los recursos de tu clúster para que se adapten a las necesidades de tu aplicación. Ofrece las siguientes herramientas:

    • Cluster Autoscaler añade o elimina nodos en función de las demandas de recursos de los pods.
    • El autoescalador horizontal de pods cambia el número de réplicas de pods en función de la CPU, la memoria o las métricas personalizadas.
    • Vertical Pod Autoscaler ajusta las solicitudes y los límites de recursos de los pods en función de los patrones de uso.
    • El aprovisionamiento automático de nodos crea automáticamente grupos de nodos optimizados para tus cargas de trabajo.

    Estas herramientas funcionan conjuntamente para optimizar el uso de los recursos, asegurar el rendimiento de las aplicaciones y simplificar la gestión de los clústeres.

  • Cloud Run es una plataforma sin servidor que te permite ejecutar código sin tener que gestionar la infraestructura. Cloud Run ofrece autoescalado integrado, que ajusta automáticamente el número de instancias en función del tráfico entrante. Cuando el volumen de tráfico aumenta, Cloud Run escala el número de instancias para gestionar la carga. Cuando el tráfico disminuye, Cloud Run reduce el número de instancias para reducir los costes.

Si usas estas opciones de escalado automático, puedes asegurarte de que tus aplicaciones basadas en la nube tengan los recursos que necesitan para gestionar cargas de trabajo variables, al tiempo que evitas el aprovisionamiento excesivo y los costes innecesarios. El autoescalado puede mejorar el rendimiento, reducir los costes y permitir un uso más eficiente de los recursos en la nube.

Aprovechar las estrategias de optimización de costes

Optimizar el gasto en la nube te ayuda a gestionar de forma eficaz los presupuestos de TI de tu organización. Esta recomendación está relacionada con el área de enfoque de la preparación operativa de la gobernanza.

Google Cloud ofrece varias herramientas y técnicas para ayudarte a optimizar los costes de la nube. Si usas estas herramientas y técnicas, podrás sacar el máximo partido a tu inversión en la nube. Estas herramientas y técnicas te ayudan a identificar áreas en las que se pueden reducir los costes, como los recursos infrautilizados, o a recomendar tipos de instancias más rentables. Google Cloud Estas son algunas de las opciones para optimizar los costes en la nube:

Los modelos de precios pueden cambiar con el tiempo y es posible que se introduzcan nuevas funciones que ofrezcan un mejor rendimiento o un coste más bajo en comparación con las opciones actuales. Por lo tanto, debes revisar periódicamente los modelos de precios y considerar funciones alternativas. Si te mantienes al día de los últimos modelos de precios y funciones, podrás tomar decisiones fundamentadas sobre tu arquitectura de nube para minimizar los costes.

Las herramientas deGoogle Cloud gestión de costes como los presupuestos y las alertas, proporcionan información valiosa sobre el gasto en la nube. Los presupuestos y las alertas permiten a los usuarios definir presupuestos y recibir alertas cuando se superan. Estas herramientas ayudan a los usuarios a monitorizar su gasto en la nube e identificar las áreas en las que se pueden reducir los costes.

Monitorizar el uso de recursos y los costes

Puede usar el etiquetado para hacer un seguimiento del uso y los costes de los recursos. Si asignas etiquetas a tus recursos en la nube (como proyectos, departamentos u otras dimensiones relevantes), puedes categorizarlos y organizarlos. De esta forma, puedes monitorizar y analizar los patrones de gasto de recursos específicos, así como identificar áreas de uso elevado o posibles ahorros de costes. Esta recomendación es relevante para las siguientes áreas de enfoque de la preparación operativa: gobernanza y herramientas.

Herramientas como Facturación de Cloud y Gestión de costes te ayudan a comprender en profundidad tus patrones de gasto. Estas herramientas proporcionan estadísticas detalladas sobre tu uso de la nube y te permiten identificar tendencias, prever costes y tomar decisiones fundamentadas. Al analizar el historial de datos y los patrones de gasto actuales, puede identificar las áreas en las que debe centrar sus esfuerzos de optimización de costes.

Los paneles de control y los informes personalizados te ayudan a visualizar los datos de costes y a obtener información valiosa sobre las tendencias de gasto. Si personaliza los paneles de control con métricas y dimensiones relevantes, puede monitorizar los indicadores clave de rendimiento (KPIs) y hacer un seguimiento del progreso hacia sus objetivos de optimización de costes. Los informes ofrecen análisis más detallados de los datos de costes. Los informes le permiten filtrar los datos por periodos específicos o tipos de recursos para comprender los factores subyacentes que contribuyen a su gasto en la nube.

Revisa y actualiza periódicamente tus etiquetas y herramientas de análisis de costes para asegurarte de que tienes la información más actualizada sobre el uso y los costes de tu nube. Si te mantienes informado y realizas análisis post mortem de costes o revisiones de costes proactivas, podrás identificar rápidamente cualquier aumento inesperado de los gastos. De esta forma, podrás tomar decisiones proactivas para optimizar los recursos de la nube y controlar los costes.

Establecer la asignación de costes y el presupuesto

La rendición de cuentas y la transparencia en la gestión de costes de la nube son fundamentales para optimizar el uso de los recursos y garantizar el control financiero. Esta recomendación está relacionada con el área de enfoque de la preparación operativa de la gobernanza.

Para garantizar la rendición de cuentas y la transparencia, debe contar con mecanismos claros para la asignación de costes y la devolución de cargos. Al asignar costes a equipos, proyectos o personas concretas, tu organización puede asegurarse de que cada una de estas entidades sea responsable de su uso de la nube. Esta práctica fomenta la sensación de propiedad y anima a gestionar los recursos de forma responsable. Además, los mecanismos de repercusión de costes permiten a tu organización recuperar los costes de la nube de los clientes internos, alinear los incentivos con el rendimiento y promover la disciplina fiscal.

Establecer presupuestos para diferentes equipos o proyectos es otro aspecto esencial de la gestión de costes en la nube. Los presupuestos permiten a tu organización definir límites de gasto y monitorizar los gastos reales en comparación con esos límites. Este enfoque te permite tomar decisiones proactivas para evitar gastos descontrolados. Si fijas presupuestos realistas y alcanzables, puedes asegurarte de que los recursos en la nube se usen de forma eficiente y de que estén alineados con los objetivos de negocio. Monitorizar periódicamente el gasto real en comparación con los presupuestos le ayuda a identificar las variaciones y a abordar los posibles excesos rápidamente.

Para monitorizar los presupuestos, puedes usar herramientas como presupuestos y alertas de facturación de Cloud. Estas herramientas proporcionan información valiosa en tiempo real sobre el gasto en la nube y notifican a las partes interesadas si se producen posibles excesos. Al usar estas funciones, puede monitorizar los costes de la nube y tomar medidas correctivas antes de que se produzcan desviaciones significativas. Este enfoque proactivo ayuda a evitar sorpresas económicas y asegura que los recursos en la nube se utilicen de forma responsable.

Automatizar y gestionar los cambios

Este principio del pilar de excelencia operativa del Google Cloud framework Well-Architected proporciona recomendaciones para ayudarte a automatizar y gestionar los cambios de tus cargas de trabajo en la nube. Implica implementar la infraestructura como código (IaC), establecer procedimientos operativos estándar, implementar un proceso de gestión de cambios estructurado y usar la automatización y la orquestación.

Descripción general de los principios

La gestión de cambios y la automatización desempeñan un papel fundamental a la hora de garantizar transiciones fluidas y controladas en entornos de nube. Para gestionar los cambios de forma eficaz, debes usar estrategias y prácticas recomendadas que minimicen las interrupciones y aseguren que los cambios se integren sin problemas en los sistemas actuales.

Una gestión del cambio y una automatización eficaces incluyen los siguientes elementos fundamentales:

  • Gobernanza de los cambios: establece políticas y procedimientos claros para la gestión de los cambios, incluidos los procesos de aprobación y los planes de comunicación.
  • Evaluación de riesgos: identifica los posibles riesgos asociados a los cambios y mitígalos mediante técnicas de gestión de riesgos.
  • Pruebas y validación: prueba los cambios a fondo para asegurarte de que cumplen los requisitos funcionales y de rendimiento, y de que se reducen las posibles regresiones.
  • Implementación controlada: implementa los cambios de forma controlada para que los usuarios pasen al nuevo entorno sin problemas, con mecanismos para revertir los cambios sin problemas si es necesario.

Estos elementos básicos ayudan a minimizar el impacto de los cambios y a asegurar que tengan un efecto positivo en las operaciones empresariales. Estos elementos se representan mediante los procesos, las herramientas y las áreas de enfoque de la preparación operativa.

Recomendaciones

Para automatizar y gestionar los cambios, consulta las recomendaciones de las siguientes secciones. Cada recomendación de este documento está relacionada con una o varias de las áreas de enfoque de la preparación operativa.

Adopta IaC

La infraestructura como código (IaC) es una estrategia transformadora para gestionar la infraestructura de la nube. Puedes definir y gestionar la infraestructura de la nube de forma declarativa con herramientas como Terraform. La IaC te ayuda a conseguir coherencia, repetibilidad y una gestión de cambios simplificada. También permite realizar implementaciones más rápidas y fiables. Esta recomendación se aplica a las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Estas son las principales ventajas de adoptar el enfoque de IaC para tus implementaciones en la nube:

  • Configuraciones de recursos legibles por humanos: con el enfoque de IaC, puedes declarar los recursos de tu infraestructura de nube en un formato legible por humanos, como JSON o YAML. Los administradores y operadores de infraestructura pueden entender y modificar fácilmente la infraestructura, así como colaborar con otros usuarios.
  • Coherencia y repetibilidad: IaC permite que los despliegues de tu infraestructura sean coherentes y repetibles. Puedes asegurarte de que tu infraestructura se aprovisione y configure de la misma forma cada vez, independientemente de quién realice la implementación. Este enfoque ayuda a reducir los errores y asegura que tu infraestructura esté siempre en un estado conocido.
  • Responsabilidad y solución de problemas simplificada: el enfoque de IaC ayuda a mejorar la responsabilidad y facilita la solución de problemas. Si almacenas tu código de IaC en un sistema de control de versiones, puedes hacer un seguimiento de los cambios e identificar cuándo y quién los ha realizado. Si es necesario, puedes volver fácilmente a versiones anteriores.

Implementar el control de versiones

Un sistema de control de versiones como Git es un componente clave del proceso de IaC. Ofrece sólidas funciones de gestión de cambios y mitigación de riesgos, por lo que se adopta ampliamente, ya sea mediante desarrollo interno o soluciones SaaS. Esta recomendación se aplica a las siguientes áreas de enfoque de la preparación operativa: gobernanza y herramientas.

Al monitorizar los cambios en el código y las configuraciones de IaC, el control de versiones proporciona visibilidad sobre la evolución del código, lo que facilita la comprensión del impacto de los cambios y la identificación de posibles problemas. Esta mayor visibilidad fomenta la colaboración entre los miembros del equipo que trabajan en el mismo proyecto de IaC.

La mayoría de los sistemas de control de versiones te permiten deshacer los cambios fácilmente si es necesario. Esta función ayuda a mitigar el riesgo de que se produzcan consecuencias o errores no deseados. Al usar herramientas como Git en tu flujo de trabajo de IaC, puedes mejorar significativamente los procesos de gestión de cambios, fomentar la colaboración y mitigar los riesgos, lo que lleva a una implementación de IaC más eficiente y fiable.

Crear flujos de procesamiento de CI/CD

Los flujos de procesamiento de integración y entrega continuas (CI/CD) optimizan el proceso de desarrollo y despliegue de aplicaciones en la nube. Los flujos de procesamiento de CI/CD automatizan las fases de compilación, prueba y despliegue, lo que permite lanzar versiones más rápidas y frecuentes con un control de calidad mejorado. Esta recomendación está relacionada con el área de enfoque de las herramientas de preparación operativa.

Los flujos de procesamiento de CI/CD aseguran que los cambios de código se integren continuamente en un repositorio central, normalmente un sistema de control de versiones como Git. La integración continua facilita la detección y la resolución tempranas de los problemas, y reduce la probabilidad de que se produzcan errores o problemas de compatibilidad.

Para crear y gestionar flujos de procesamiento de CI/CD para aplicaciones en la nube, puedes usar herramientas como Cloud Build y Cloud Deploy.

  • Cloud Build es un servicio de compilación totalmente gestionado que permite a los desarrolladores definir y ejecutar pasos de compilación de forma declarativa. Se integra perfectamente con las plataformas de gestión de código fuente más populares y se puede activar mediante eventos como las inserciones de código y las solicitudes de extracción.
  • Cloud Deploy es un servicio de despliegue sin servidor que automatiza el proceso de despliegue de aplicaciones en varios entornos, como los de prueba, staging y producción. Ofrece funciones como los despliegues azul-verde, la división del tráfico y las funciones de restauración, lo que facilita la gestión y la monitorización de los despliegues de aplicaciones.

Integrar flujos de procesamiento de CI/CD con sistemas de control de versiones y frameworks de pruebas ayuda a garantizar la calidad y la fiabilidad de tus aplicaciones en la nube. Al ejecutar pruebas automatizadas como parte del proceso de CI/CD, los equipos de desarrollo pueden identificar y corregir rápidamente cualquier problema antes de que el código se implemente en el entorno de producción. Esta integración ayuda a mejorar la estabilidad y el rendimiento generales de tus aplicaciones en la nube.

Usar herramientas de gestión de la configuración

Herramientas como Puppet, Chef, Ansible y VM Manager te ayudan a automatizar la configuración y la gestión de los recursos en la nube. Con estas herramientas, puede asegurarse de que los recursos sean coherentes y de que se cumplan los requisitos en todos sus entornos de nube. Esta recomendación está relacionada con el área de enfoque de las herramientas de preparación operativa.

Automatizar la configuración y la gestión de recursos en la nube ofrece las siguientes ventajas:

  • Reducción significativa del riesgo de errores manuales: cuando se utilizan procesos manuales, es más probable que se produzcan errores debido a fallos humanos. Las herramientas de gestión de la configuración reducen este riesgo automatizando los procesos, de modo que las configuraciones se apliquen de forma coherente y precisa en todos los recursos de la nube. Esta automatización puede mejorar la fiabilidad y la estabilidad del entorno de nube.
  • Mejora de la eficiencia operativa: al automatizar las tareas repetitivas, tu organización puede liberar al personal de TI para que se centre en iniciativas más estratégicas. Esta automatización puede aumentar la productividad y el ahorro de costes, así como mejorar la capacidad de respuesta a las necesidades empresariales cambiantes.
  • Gestión simplificada de infraestructuras de nube complejas: a medida que los entornos de nube crecen en tamaño y complejidad, gestionar los recursos puede resultar cada vez más difícil. Las herramientas de gestión de la configuración proporcionan una plataforma centralizada para gestionar los recursos en la nube. Estas herramientas facilitan el seguimiento de las configuraciones, la identificación de problemas y la implementación de cambios. Usar estas herramientas puede mejorar la visibilidad, el control y la seguridad de tu entorno de nube.

Automatizar prueba

Integrar pruebas automatizadas en tus flujos de procesamiento de CI/CD ayuda a asegurar la calidad y la fiabilidad de tus aplicaciones en la nube. Al validar los cambios antes de la implementación, puedes reducir significativamente el riesgo de errores y regresiones, lo que da lugar a un sistema de software más estable y robusto. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Estas son las principales ventajas de incorporar pruebas automatizadas en tus flujos de procesamiento de CI/CD:

  • Detección temprana de errores y defectos: las pruebas automatizadas ayudan a detectar errores y defectos en las primeras fases del proceso de desarrollo, antes de que puedan causar problemas importantes en la producción. Esta función ahorra tiempo y recursos, ya que evita tener que hacer correcciones de errores y repetir el trabajo en fases posteriores del proceso de desarrollo.
  • Código de alta calidad y basado en estándares: las pruebas automatizadas pueden ayudar a mejorar la calidad general del código, ya que aseguran que cumpla determinados estándares y prácticas recomendadas. Esta función permite crear aplicaciones más fiables y fáciles de mantener, con menos probabilidades de que se produzcan errores.

Puedes usar varios tipos de técnicas de prueba en las pipelines de CI/CD. Cada tipo de prueba tiene un propósito específico.

  • Las pruebas unitarias se centran en probar unidades de código individuales, como funciones o métodos, para asegurarse de que funcionan correctamente.
  • Las pruebas de integración comprueban las interacciones entre los diferentes componentes o módulos de tu aplicación para verificar que funcionan correctamente juntos.
  • Las pruebas integrales se suelen usar junto con las pruebas unitarias y de integración. Las pruebas integrales simulan situaciones reales para probar la aplicación en su conjunto y ayudan a asegurar que la aplicación cumpla los requisitos de los usuarios finales.

Para integrar de forma eficaz las pruebas automatizadas en tus flujos de procesamiento de CI/CD, debes elegir las herramientas y los frameworks de pruebas adecuados. Hay muchas opciones diferentes, cada una con sus puntos fuertes y débiles. También debes establecer una estrategia de pruebas clara que defina los tipos de pruebas que se van a realizar, la frecuencia de las pruebas y los criterios para aprobarlas o suspenderlas. Si sigues estas recomendaciones, te asegurarás de que tu proceso de pruebas automatizadas sea eficiente y eficaz. Este proceso proporciona información valiosa sobre la calidad y la fiabilidad de tus aplicaciones en la nube.

Mejorar e innovar continuamente

Este principio del pilar de excelencia operativa del Google Cloud framework Well-Architected proporciona recomendaciones para ayudarte a optimizar continuamente las operaciones en la nube e impulsar la innovación.

Descripción general de los principios

Para mejorar e innovar continuamente en la nube, debes centrarte en el aprendizaje, la experimentación y la adaptación continuos. Esto te ayuda a explorar nuevas tecnologías y optimizar los procesos actuales, además de fomentar una cultura de excelencia que permita a tu organización alcanzar y mantener el liderazgo en el sector.

Gracias a la mejora continua y la innovación, puedes alcanzar los siguientes objetivos:

  • Acelera la innovación: explora nuevas tecnologías y servicios para mejorar las funciones y fomentar la diferenciación.
  • Reducir costes: identifica y elimina las ineficiencias mediante iniciativas de mejora de procesos.
  • Mejorar la agilidad: adáptate rápidamente a los cambios en las demandas del mercado y las necesidades de los clientes.
  • Mejorar la toma de decisiones: obtén información valiosa a partir de los datos y las analíticas para tomar decisiones basadas en datos.

Las organizaciones que adoptan el principio de mejora continua e innovación pueden sacar el máximo partido del entorno de la nube y lograr un crecimiento sostenible. Este principio se corresponde principalmente con el área de enfoque de la preparación operativa de la plantilla. Una cultura de innovación permite a los equipos experimentar con nuevas herramientas y tecnologías para ampliar las capacidades y reducir los costes.

Recomendaciones

Para mejorar e innovar continuamente tus cargas de trabajo en la nube, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento se relaciona con una o varias de las áreas de enfoque de la preparación operativa.

Fomentar una cultura de aprendizaje

Anima a los equipos a experimentar, compartir conocimientos y aprender continuamente. Adopta una cultura sin culpables en la que los errores se vean como oportunidades de crecimiento y mejora. Esta recomendación está relacionada con el área de interés de la preparación operativa de la plantilla.

Si fomentas una cultura de aprendizaje, los equipos pueden aprender de los errores y hacer cambios rápidamente. Este enfoque anima a los miembros del equipo a correr riesgos, experimentar con nuevas ideas y ampliar los límites de su trabajo. También crea un entorno psicológicamente seguro en el que las personas se sienten cómodas compartiendo sus errores y aprendiendo de ellos. Compartir de esta forma fomenta un entorno más abierto y colaborativo.

Para facilitar el intercambio de conocimientos y el aprendizaje continuo, crea oportunidades para que los equipos compartan conocimientos y aprendan unos de otros. Puedes hacerlo mediante sesiones de aprendizaje informales y formales, así como conferencias.

Si fomentas una cultura de experimentación, intercambio de conocimientos y aprendizaje continuo, puedes crear un entorno en el que los equipos tengan la capacidad de asumir riesgos, innovar y crecer. Este entorno puede aumentar la productividad, mejorar la resolución de problemas y lograr que los empleados estén más comprometidos y motivados. Además, si fomentas una cultura en la que no se culpabiliza a nadie, puedes crear un espacio seguro para que los empleados aprendan de sus errores y contribuyan al conocimiento colectivo del equipo. Esta cultura lleva a una plantilla más resiliente y adaptable, que está mejor preparada para afrontar los retos y lograr el éxito a largo plazo.

Realiza retrospectivas periódicas

Las retrospectivas ofrecen a los equipos la oportunidad de reflexionar sobre sus experiencias, identificar qué ha ido bien y qué se puede mejorar. Al llevar a cabo retrospectivas después de los proyectos o incidentes importantes, los equipos pueden aprender de los éxitos y los fracasos, y mejorar continuamente sus procesos y prácticas. Esta recomendación se aplica a las siguientes áreas de enfoque de la preparación operativa: procesos y gobernanza.

Una forma eficaz de estructurar una retrospectiva es usar el modelo Empezar-Parar-Continuar:

  • Inicio: en la fase Inicio de la retrospectiva, los miembros del equipo identifican nuevas prácticas, procesos y comportamientos que creen que pueden mejorar su trabajo. En ellas se explica por qué son necesarios los cambios y cómo se pueden implementar.
  • Detener: en la fase de Detener, los miembros del equipo identifican y eliminan prácticas, procesos y comportamientos que ya no son eficaces o que dificultan el progreso. En él se explica por qué son necesarios estos cambios y cómo se pueden implementar.
  • Continuar: en la fase Continuar, los miembros del equipo identifican las prácticas, los procesos y los comportamientos que funcionan bien y que deben mantenerse. En él se explica por qué son importantes estos elementos y cómo se pueden reforzar.

Si los equipos usan un formato estructurado, como el modelo de inicio, parada y continuación, pueden asegurarse de que las retrospectivas sean productivas y se centren en lo importante. Este modelo ayuda a facilitar el debate, identificar las conclusiones principales y determinar las medidas que se pueden tomar para mejorar el producto.

Mantenerse al día de las tecnologías de la nube

Para maximizar el potencial de los servicios de Google Cloud , debes estar al día de los últimos avances, funciones y prácticas recomendadas. Esta recomendación está relacionada con el área de interés de la preparación operativa de la plantilla.

Participar en conferencias, seminarios web y sesiones de formación relevantes es una forma valiosa de ampliar tus conocimientos. Estos eventos ofrecen oportunidades para aprender de Google Cloud expertos, conocer nuevas funciones e interactuar con compañeros del sector que pueden enfrentarse a retos similares. Si asistes a estas sesiones, podrás descubrir cómo usar las nuevas funciones de forma eficaz, optimizar tus operaciones en la nube e impulsar la innovación en tu organización.

Para asegurarte de que los miembros de tu equipo están al día de las tecnologías de la nube, anímales a obtener certificaciones y a asistir a cursos de formación. Google Cloud ofrece una amplia gama de certificaciones que validan las habilidades y los conocimientos en ámbitos específicos de la nube. Obtener estas certificaciones demuestra el compromiso con la excelencia y proporciona pruebas tangibles de la competencia en tecnologías de la nube. Los cursos de formación que ofrecen Google Cloud y nuestros partners profundizan en temas específicos. Proporcionan experiencia directa y habilidades prácticas que se pueden aplicar inmediatamente a proyectos del mundo real. Si inviertes en el desarrollo profesional de tu equipo, puedes fomentar una cultura de aprendizaje continuo y asegurarte de que todos tengan las habilidades necesarias para triunfar en la nube.

Busca e incorpora activamente las sugerencias

Recoge las opiniones de los usuarios, las partes interesadas y los miembros del equipo. Usa los comentarios para identificar oportunidades de mejora de tus soluciones en la nube. Esta recomendación está relacionada con el área de interés de la plantilla de preparación operativa.

Los comentarios que recojas pueden ayudarte a entender las necesidades, los problemas y las expectativas cambiantes de los usuarios de tus soluciones. Estos comentarios nos sirven para mejorar el producto y priorizar las futuras mejoras. Puedes usar varios mecanismos para recoger comentarios:

  • Las encuestas son una forma eficaz de recoger datos cuantitativos de un gran número de usuarios y partes interesadas.
  • Las entrevistas con usuarios ofrecen la oportunidad de recoger datos cualitativos en profundidad. Las entrevistas te permiten conocer los problemas y las experiencias específicos de cada usuario.
  • Los formularios de comentarios que se colocan en las soluciones en la nube ofrecen a los usuarios una forma cómoda de enviar comentarios inmediatos sobre su experiencia.
  • Las reuniones periódicas con los miembros del equipo pueden facilitar la recogida de comentarios sobre los aspectos técnicos y los problemas de implementación.

Los comentarios que recojas a través de estos mecanismos deben analizarse y sintetizarse para identificar temas y patrones comunes. Este análisis puede ayudarte a priorizar las mejoras futuras en función del impacto y la viabilidad de las sugerencias. Si abordas las necesidades y los problemas que se identifican a través de los comentarios, puedes asegurarte de que tus soluciones en la nube sigan cumpliendo los requisitos cambiantes de tus usuarios y partes interesadas.

Medir y monitorizar el progreso

Los indicadores clave de rendimiento y las métricas son fundamentales para monitorizar el progreso y medir la eficacia de tus operaciones en la nube. Los KPIs son mediciones cuantificables que reflejan el rendimiento general. Las métricas son puntos de datos específicos que contribuyen al cálculo de los KPIs. Revisa las métricas con regularidad y úsalas para identificar oportunidades de mejora y medir el progreso. De esta forma, podrás mejorar y optimizar continuamente tu entorno de nube. Esta recomendación se aplica a las siguientes áreas de enfoque de la preparación operativa: gobernanza y procesos.

Una de las principales ventajas de usar KPIs y métricas es que permiten a tu organización adoptar un enfoque basado en datos para las operaciones en la nube. Al monitorizar y analizar los datos operativos, puede tomar decisiones fundamentadas sobre cómo mejorar el entorno de la nube. Este enfoque basado en datos te ayuda a identificar tendencias, patrones y anomalías que quizá no sean visibles sin el uso de métricas sistemáticas.

Para recoger y analizar datos operativos, puede usar herramientas como Cloud Monitoring y BigQuery. Cloud Monitoring permite monitorizar en tiempo real los recursos y servicios en la nube. BigQuery te permite almacenar y analizar los datos que recoges mediante la monitorización. Si usas estas herramientas conjuntamente, puedes crear paneles de control personalizados para visualizar métricas y tendencias importantes.

Los paneles de control operativos pueden ofrecer una vista centralizada de las métricas más importantes, lo que le permite identificar rápidamente las áreas que requieren atención. Por ejemplo, un panel de control puede incluir métricas como la utilización de la CPU, el uso de la memoria, el tráfico de red y la latencia de una aplicación o un servicio concretos. Si monitorizas estas métricas, podrás identificar rápidamente cualquier problema potencial y tomar medidas para solucionarlo.