Este principio del pilar de fiabilidad del Google Cloud marco de trabajo Well-Architected ofrece recomendaciones para ayudarte a identificar de forma proactiva las áreas en las que pueden producirse errores y fallos.
Este principio se aplica al área de enfoque de la observación de la fiabilidad.
Descripción general de los principios
Para mantener y mejorar la fiabilidad de tus cargas de trabajo enGoogle Cloud, debes implementar una observabilidad eficaz mediante métricas, registros y trazas.
- Las métricas son medidas numéricas de las actividades que quieres monitorizar en tu aplicación en intervalos de tiempo específicos. Por ejemplo, puede que quieras monitorizar métricas técnicas como la tasa de solicitudes y la tasa de errores, que se pueden usar como indicadores de nivel de servicio (SLIs). También puede que tengas que monitorizar métricas de negocio específicas de la aplicación, como los pedidos realizados y los pagos recibidos.
- Los registros son registros con marca de tiempo de eventos discretos que se producen en una aplicación o un sistema. El evento puede ser un fallo, un error o un cambio de estado. Los registros pueden incluir métricas y también se pueden usar para los SLIs.
- Una traza representa el recorrido de un solo usuario o transacción a través de varias aplicaciones independientes o de los componentes de una aplicación. Por ejemplo, estos componentes podrían ser microservicios. Los rastreos te ayudan a monitorizar qué componentes se han usado en los recorridos, dónde hay cuellos de botella y cuánto han durado los recorridos.
Las métricas, los registros y las trazas te ayudan a monitorizar tu sistema de forma continua. La monitorización integral te ayuda a averiguar dónde y por qué se han producido los errores. También puedes detectar posibles fallos antes de que se produzcan errores.
Recomendaciones
Para detectar posibles fallos de forma eficiente, tenga en cuenta las recomendaciones de las siguientes subsecciones.
Obtener estadísticas completas
Para monitorizar métricas clave, como los tiempos de respuesta y las tasas de error, usa Cloud Monitoring y Cloud Logging. Estas herramientas también te ayudan a asegurarte de que las métricas cumplen constantemente los requisitos de tu carga de trabajo.
Para tomar decisiones basadas en datos, analiza las métricas de servicio predeterminadas para comprender las dependencias de los componentes y su impacto en el rendimiento general de la carga de trabajo.
Para personalizar tu estrategia de monitorización, crea y publica tus propias métricas con el SDK de Google Cloud.
Solucionar problemas de forma proactiva
Implementa un control de errores sólido y habilita el registro en todos los componentes de tus cargas de trabajo en Google Cloud. Activa registros como los registros de acceso a Cloud Storage y los registros de flujo de VPC.
Cuando configure el registro, tenga en cuenta los costes asociados. Para controlar los costes de registro, puedes configurar filtros de exclusión en los sumideros de registros para evitar que se almacenen determinados registros.
Optimizar el uso de los recursos
Monitoriza el consumo de CPU y las métricas de E/ de red y de disco para detectar recursos insuficientes y excesivos en servicios como GKE, Compute Engine y Dataproc. Para ver una lista completa de los servicios admitidos, consulta la descripción general de Cloud Monitoring.
Priorizar alertas
En el caso de las alertas, céntrate en las métricas críticas, define umbrales adecuados para minimizar la fatiga de alertas y asegúrate de responder a tiempo a los problemas importantes. Este enfoque específico te permite mantener la fiabilidad de las cargas de trabajo de forma proactiva. Para obtener más información, consulta el resumen de las alertas.