Las alertas te ayudan a estar al tanto del estado y el rendimiento de tus implementaciones aisladas. Envían notificaciones oportunas cuando se cumplen condiciones específicas, lo que te permite hacer lo siguiente:
- Aborda los problemas de forma proactiva: detecta y responde a los problemas antes de que afecten a los usuarios o a las operaciones empresariales.
- Reduce el tiempo de inactividad: minimiza las interrupciones del servicio tomando medidas correctivas rápidamente.
- Mantener los niveles de servicio: asegúrate de que tus aplicaciones cumplan los objetivos de rendimiento y disponibilidad.
- Obtener estadísticas operativas: identifica tendencias y patrones en tu entorno para optimizar el uso de los recursos y el rendimiento.
En esta página se ofrece una descripción general de cómo crear y gestionar alertas en entornos aislados de Google Distributed Cloud (GDC). Se explica cómo usar los datos de monitorización para identificar de forma proactiva eventos críticos en sus aplicaciones e infraestructura y responder a ellos.
Tipos de políticas de alertas
Las políticas de alertas basadas en métricas monitorizan los datos y envían notificaciones a personas concretas cuando un recurso cumple una condición predefinida. Por ejemplo, una política de alertas que monitoriza el uso de CPU de una máquina virtual puede enviar una notificación cuando un evento active la política. También puede haber una política que monitorice una comprobación de disponibilidad y envíe una notificación a los equipos de guardia y de desarrollo.
Por otro lado, para monitorizar los eventos recurrentes de tus registros a lo largo del tiempo, usa métricas basadas en registros para crear políticas de alertas. Las métricas basadas en registros generan datos numéricos a partir de los datos de registro. Las métricas basadas en registros son adecuadas si quieres hacer lo siguiente:
- Cuenta las veces que aparece un mensaje en tus registros, como una advertencia o un error. Recibir una notificación cuando el número de eventos supere un umbral.
- Observar las tendencias de sus datos, como los valores de latencia de sus registros. Recibir una notificación si los valores cambian de forma inaceptable.
- Crea gráficos para mostrar los datos numéricos extraídos de tus registros.
En GDC, las alertas pueden generar páginas y tickets para errores críticos. Las páginas requieren la atención inmediata de un operador, mientras que los tickets son menos urgentes.
Componentes clave
El servicio de alertas de GDC usa los siguientes componentes:
- Prometheus un sistema de monitorización de código abierto que se usa mucho para recoger y almacenar métricas. Proporciona un lenguaje de consulta potente (PromQL) para definir reglas de alerta.
- Plataforma de monitorización: un servicio de monitorización gestionado que recoge métricas de varias fuentes, incluido Prometheus. Ofrece funciones avanzadas, como paneles de Grafana, métricas personalizadas y alertas.
- Alertmanager: componente encargado de recibir, procesar y enrutar alertas. Permite agrupar, silenciar e inhibir alertas para reducir el ruido y mejorar la eficiencia.
Flujo de trabajo de alertas
GDC proporciona un marco de alertas que se integra con varias herramientas y servicios de monitorización. El flujo de trabajo habitual incluye las siguientes fases:
- Recogida de datos: usa herramientas como Prometheus y Fluent Bit para recoger métricas y registros de tus aplicaciones, infraestructura y Kubernetes.
- Monitorización: almacena y visualiza los datos recogidos en los paneles de Grafana.
- Reglas de alertas: define reglas de alertas basadas en condiciones específicas, como el uso de la CPU que supera un umbral o los errores de la aplicación que superan una determinada tasa.
- Alertmanager: Alertmanager recibe las alertas activadas por las reglas definidas y gestiona el enrutamiento y el silenciamiento de las notificaciones.
- Notificaciones: recibe alertas a través de varios canales, como correo electrónico, mensajes o webhooks.
Prácticas recomendadas
Cuando configures alertas, ten en cuenta estas prácticas recomendadas:
- Define alertas claras y útiles: asegúrate de que tus alertas proporcionen información específica sobre el problema y sugieran acciones adecuadas.
- Define niveles de gravedad adecuados: clasifica las alertas según su impacto y urgencia para priorizar las medidas de respuesta.
- Evita la fatiga por alertas: ajusta tus reglas de alertas para minimizar los falsos positivos y las notificaciones innecesarias.
- Prueba tus alertas con regularidad: comprueba que se activan correctamente y que las notificaciones se envían según lo previsto.
- Documenta tu estrategia de alertas: documenta tus reglas de alertas, canales de notificación y procedimientos de derivación.