Detecta posibles fallas con la observabilidad

Last reviewed 2024-12-30 UTC

Este principio del pilar de confiabilidad del Google Cloud Well-Architected Framework proporciona recomendaciones para ayudarte a identificar de forma proactiva las áreas en las que podrían ocurrir errores y fallas.

Este principio es pertinente para el área de enfoque de observación de la confiabilidad.

Descripción general del principio

Para mantener y mejorar la confiabilidad de tus cargas de trabajo enGoogle Cloud, debes implementar una observabilidad eficaz con métricas, registros y seguimientos.

  • Las métricas son mediciones numéricas de las actividades que deseas hacer un seguimiento para tu aplicación en intervalos de tiempo específicos. Por ejemplo, es posible que desees hacer un seguimiento de las métricas técnicas, como la tasa de solicitudes y la tasa de errores, que se pueden usar como indicadores de nivel de servicio (SLI). También es posible que debas hacer un seguimiento de las métricas de negocios específicas de la aplicación, como los pedidos realizados y los pagos recibidos.
  • Los registros son registros con marcas de tiempo de eventos discretos que ocurren dentro de una aplicación o un sistema. El evento puede ser una falla, un error o un cambio de estado. Los registros pueden incluir métricas, y también puedes usarlos para los SLI.
  • Un registro representa el recorrido de un solo usuario o transacción a través de varias aplicaciones separadas o los componentes de una aplicación. Por ejemplo, estos componentes podrían ser microservicios. Los registros te ayudan a hacer un seguimiento de los componentes que se usaron en los recorridos, dónde existen cuellos de botella y cuánto duraron los recorridos.

Las métricas, los registros y los seguimientos te ayudan a supervisar tu sistema de forma continua. La supervisión integral te ayuda a descubrir dónde y por qué se produjeron los errores. También puedes detectar posibles fallas antes de que se produzcan errores.

Recomendaciones

Para detectar posibles fallas de manera eficiente, considera las recomendaciones de las siguientes subsecciones.

Obtén estadísticas integrales

Para hacer un seguimiento de las métricas clave, como los tiempos de respuesta y las tasas de error, usa Cloud Monitoring y Cloud Logging. Estas herramientas también te ayudan a garantizar que las métricas satisfagan de manera constante las necesidades de tu carga de trabajo.

Para tomar decisiones basadas en datos, analiza las métricas de servicio predeterminadas para comprender las dependencias de los componentes y su impacto en el rendimiento general de la carga de trabajo.

Para personalizar tu estrategia de supervisión, crea y publica tus propias métricas con el SDK de Google Cloud.

Realiza una solución de problemas proactiva

Implementa un manejo de errores sólido y habilita el registro en todos los componentes de tus cargas de trabajo en Google Cloud. Activa registros como los registros de acceso a Cloud Storage y los registros de flujo de VPC.

Cuando configures el registro, ten en cuenta los costos asociados. Para controlar los costos de registro, puedes configurar filtros de exclusión en los receptores de registros para evitar que se almacenen ciertos registros.

Optimiza el uso de recursos

Supervisa el consumo de CPU, las métricas de E/S de red y las métricas de E/S de disco para detectar recursos con capacidad insuficiente o excesiva en servicios como GKE, Compute Engine y Dataproc. Para obtener una lista completa de los servicios compatibles, consulta la descripción general de Cloud Monitoring.

Priorizar alertas

En el caso de las alertas, enfócate en las métricas críticas, establece umbrales adecuados para minimizar la fatiga por alertas y garantiza respuestas oportunas a los problemas importantes. Este enfoque específico te permite mantener de forma proactiva la confiabilidad de la carga de trabajo. Para obtener más información, consulta la Descripción general de alertas.