Gestionar y monitorizar la infraestructura de Google Cloud

Last reviewed 2024-11-20 UTC

Después de desplegar una aplicación en producción en Google Cloud, es posible que tengas que modificar la infraestructura que utiliza. Por ejemplo, puede que tengas que cambiar los tipos de máquina de tus VMs o la clase de almacenamiento de los segmentos de Cloud Storage. En esta parte de la Google Cloud guía de fiabilidad de la infraestructura se resumen las directrices de gestión de cambios que puedes seguir para reducir el riesgo de fiabilidad de los recursos de la infraestructura. En esta parte también se describe cómo puedes monitorizar la disponibilidad de la infraestructura de Google Cloud .

Implementar cambios en la infraestructura de forma progresiva

Cuando necesites cambiar tu Google Cloud infraestructura, despliega los cambios en producción de forma progresiva siempre que sea posible. Por ejemplo, si necesitas cambiar los tipos de máquina de las VMs, implementa los cambios en algunas VMs de una zona y monitoriza los efectos de los cambios. Si observas algún problema, vuelve rápidamente a la infraestructura anterior estable. Diagnostica y resuelve los problemas y, a continuación, reinicia el proceso de implementación progresiva. Después de verificar que tu carga de trabajo se ejecuta según lo previsto, implementa los cambios de forma gradual en toda tu infraestructura.

Controlar los cambios en los recursos globales

Cuando modifiques recursos globales, como redes de VPC y balanceadores de carga globales, ten mucho cuidado al verificar los cambios antes de implementarlos en producción.

Como los recursos globales son resistentes a las interrupciones de las zonas y las regiones, puede que decidas usar instancias únicas de determinados recursos globales en tu arquitectura. En estas implementaciones, los recursos globales pueden convertirse en puntos únicos de fallo. Por ejemplo, si configuras por error una regla de reenvío de tu balanceador de carga global, el frontend puede dejar de recibir o procesar solicitudes de los usuarios. En la práctica, la aplicación no está disponible para los usuarios en este caso, aunque el backend esté intacto. Para evitar estas situaciones, ejerza un control riguroso sobre los cambios en los recursos globales. Por ejemplo, en el proceso de revisión de cambios, puedes clasificar cualquier modificación de los recursos globales como cambios de alto riesgo que deben verificar y aprobar revisores adicionales.

Monitorizar la disponibilidad de la infraestructura de Google Cloud

Puedes monitorizar el estado actual de los Google Cloud servicios en todas las regiones mediante el Google Cloud panel de control de Service Health. También puedes consultar el historial de los fallos de infraestructura (llamados incidentes) de cada servicio. La página del historial proporciona los detalles de cada incidencia, como la duración, las zonas y regiones afectadas, los servicios afectados y las soluciones alternativas recomendadas.

También puedes ver los incidentes relacionados con tu proyecto en Personalized Service Health. Service Health también te permite solicitar información sobre incidentes mediante una API por proyecto o por organización, así como configurar alertas.

Google proporciona actualizaciones periódicas sobre el estado de cada incidencia, incluida una estimación del tiempo que falta para la próxima actualización. Puedes obtener actualizaciones de estado de los incidentes de forma programática mediante un feed RSS. Para obtener más información, consulta Incidentes y el panel de control de estado del servicio de Google Cloud .