Puedes crear políticas de alertas para tus objetivos de nivel de servicio (SLOs) para saber si corres el riesgo de infringir alguno de ellos. Selecciona el SLO que quieras monitorizar y, a continuación, configura una política de alertas para monitorizarlo. La condición se suele expresar seleccionando un valor de umbral que constituya una infracción y un periodo durante el cual se permita la infracción. Si se supera el umbral durante más tiempo del permitido, se activa la política de alertas.
En esta página se describe cómo configurar alertas sobre el ritmo de consumo de tu presupuesto de errores. No se explican las políticas de alertas en detalle, sino que se da por hecho que ya conoces los conceptos básicos de las condiciones y los canales de notificaciones.
Para obtener información general sobre las políticas de alertas y cómo crearlas, consulta el artículo Usar políticas de alertas.
Para ver los pasos específicos para crear una política de alertas basada en SLOs, consulta los siguientes artículos:
- Crear una política de alertas mediante la Google Cloud consola.
- Crear una política de alertas mediante la API Cloud Monitoring.
Ritmo de consumo del presupuesto de errores
El presupuesto de errores de un periodo de cumplimiento es (1 − objetivo de nivel de servicio) × (eventos aptos del periodo de cumplimiento). Si tu objetivo de SLO es del 95%, significa que el 5% de los eventos medidos por tu SLI pueden fallar antes de que no se cumpla tu objetivo de SLO.
La velocidad de gasto indica la rapidez con la que estás consumiendo el presupuesto de errores durante un periodo de cumplimiento. La tasa de consumo depende del número de eventos aptos y del número de eventos de error recibidos durante el periodo de cumplimiento. Por ejemplo, si no se producen eventos de error, el presupuesto de errores no se consume y la tasa de consumo es cero. Para ver un ejemplo que ilustra cómo puedes calcular el tiempo de inactividad máximo de un servicio, consulta Alert on Burn Rate (Alerta sobre la tasa de consumo).
La métrica de tasa de consumo se normaliza de forma que una tasa de consumo superior a uno indica que, si la tasa de errores medida se mantiene durante cualquier periodo de cumplimiento futuro, el servicio no cumplirá el objetivo de nivel de servicio durante ese periodo. Para obtener más información, consulta Presupuestos de errores.
La métrica de ritmo de consumo se obtiene mediante el selector de series temporales
select_slo_burn_rate
. Una política de alertas de ritmo de consumo te avisa cuando tu presupuesto de errores se consume más rápido que un umbral que definas, medido durante el periodo de cumplimiento de la alerta. Hay otros selectores de series temporales. Consulta Recuperar datos de SLO para obtener más información.
Puedes crear políticas de alertas que usen algunos de estos otros selectores de series temporales, pero debes crearlas mediante la API Cloud Monitoring.
Descripción general de la creación de una política de alertas sobre un objetivo de nivel de servicio
Crear una política de alertas para un objetivo de nivel de servicio es similar a crear una política de alertas para métricas. En esta sección se describen los pasos generales para crear una política de alertas.
Para crear una política de alertas para un SLO, sigue estos pasos:
Identifica el SLO en el que quieres basar la política de alertas.
Crea una condición para tu política de alertas que use el objetivo de nivel de servicio elegido. En la condición, especifica un selector de serie temporal que se usará para obtener datos de SLO. También debes especificar una duración, un umbral y una comparación que determinen cuándo se incumple el SLO.
Por ejemplo, si usas el selector de serie temporal para la velocidad de gasto, los datos obtenidos reflejan la velocidad de gasto del presupuesto de errores del objetivo de nivel de servicio elegido.
En la condición también se especifica el umbral y la duración de las infracciones del objetivo de nivel de servicio antes de activar una alerta. Por ejemplo, quieres que la tasa de consumo sea un importe superior a la tasa deseada durante un periodo determinado antes de activar una alerta. El valor de "some amount over" es el umbral de la condición, y el valor de "some period" es la duración de la condición.
Identifica o crea un canal de notificaciones para usarlo en tu política de alertas.
Proporciona documentación que explique a los usuarios qué ha activado la política de alertas.
Para obtener información general sobre las políticas de alertas y cómo crearlas, consulta el artículo Usar políticas de alertas.
Políticas de alertas y periodos retrospectivos
Cuando recuperas los datos de un objetivo de nivel de servicio de una política de alertas, especificas un identificador para el objetivo de nivel de servicio y un periodo retrospectivo. El periodo retrospectivo determina hasta qué fecha se remontan los datos que se deben recuperar. Es fundamental que el periodo retrospectivo también se utilice como periodo de cumplimiento para calcular el rendimiento del SLO y el presupuesto de errores.
Actualmente, no es posible basar las alertas en la tasa de consumo del presupuesto de errores de un objetivo de nivel de servicio con un periodo de cumplimiento superior a 24 horas. En muchos casos, aproximar tu periodo de cumplimiento a largo plazo (por ejemplo, 28 o 30 días) con uno de menos de 24 horas es suficiente para detectar interrupciones y dirigir tu respuesta operativa a corto plazo.
Los periodos de cumplimiento más cortos permiten detectar los problemas más rápido, pero con la advertencia de que los grandes cambios en el tráfico y las tasas de error a lo largo del día pueden provocar alertas demasiado sensibles durante los periodos de poco tráfico. Te recomendamos que uses un umbral de ritmo de consumo significativamente superior a 1 para reducir la sensibilidad de las alertas durante estos periodos.
Tipos de alertas de presupuesto de errores
Cuando configures políticas de alertas para monitorizar tu presupuesto de errores, te recomendamos que crees dos políticas de alertas relacionadas:
Alerta de consumo rápido, que te avisa de un cambio repentino y significativo en el consumo que, si no se corrige, agotará tu presupuesto de errores en muy poco tiempo. "A este ritmo, agotaremos el presupuesto de errores de todo el mes en dos días"
Para recibir alertas de combustión rápida, usa un periodo de retrospectiva más corto para que se te notifique rápidamente si se ha producido y se ha mantenido una condición potencialmente desastrosa, aunque sea brevemente. Si es realmente desastroso, no querrás esperar mucho para darte cuenta.
El umbral de la tasa de consumo que se alerta aquí es mucho mayor que el ideal de referencia del periodo retrospectivo.
Alerta de consumo lento, que te avisa de una tasa de consumo que, si no se modifica, agotará tu presupuesto de errores antes de que finalice el periodo de cumplimiento. Este tipo de condición es menos urgente que una condición de combustión rápida. "Estamos ligeramente por encima de donde nos gustaría estar en este momento del mes, pero aún no tenemos grandes problemas".
Para recibir alertas de este tipo, usa un periodo retrospectivo más largo para suavizar las variaciones en el consumo a corto plazo.
El umbral de las alertas de combustión lenta es superior al rendimiento ideal del periodo retrospectivo, pero no significativamente superior. Una política basada en un periodo retrospectivo más corto con un umbral alto podría generar demasiadas alertas, aunque los niveles de consumo a largo plazo se estabilicen. Sin embargo, si el consumo sigue siendo demasiado alto durante un periodo más largo, acabará consumiendo todo tu presupuesto de errores.
Pasos siguientes
- Para crear una política de alertas basada en un objetivo de nivel de servicio mediante la Google Cloud consola, consulta Crear una política de alertas (consola deGoogle Cloud ).
- Para crear una política de alertas basada en SLOs mediante la API Monitoring, consulta Crear una política de alertas (API).