37. Lista de tareas de implementación

Tiempo estimado para completar la actividad: 5 días

Propietario del componente operable: OLT

Perfil de habilidad: ingeniero de Deployment

A partir de la versión 1.14, la finalización de la implementación se verifica en los paneles de Observability and Monitoring Stack.


  1. Verifica el panel de incidentes de ServiceNow

    • Verifica si hay incidentes nuevos o sin resolver relacionados con la implementación.
  2. Verifica el panel de Grafana AlertManager

    • Busca alertas que se estén activando.
  3. Triaje de incidentes y alertas nuevos Para cualquier incidente nuevo de ServiceNow o alerta de Grafana activada, sigue estos pasos:

    1. Compara el problema con el documento de problemas conocidos.
    2. Si el problema no aparece en la lista de problemas conocidos, deriva el caso al equipo de Ingeniería para que evalúe los pasos a seguir. La resolución podría requerir que completes lo siguiente:
      • Resuelve el problema subyacente.
      • Documenta la alerta como un nuevo problema conocido, por ejemplo, si se trata de un falso positivo.

37.1. Verifica el estado del sistema

Después de la implementación, el indicador principal del estado del sistema es la ausencia de incidentes y alertas nuevos e inesperados en el panel de incidentes de ServiceNow (SNOW) y en el panel de AlertManager de Grafana.


37.1.1. Panel de incidentes de ServiceNow

El panel de ServiceNow proporciona una vista general de los problemas importantes que el sistema registró automáticamente. Después de una implementación, este panel no debería mostrar incidentes nuevos ni críticos.

Tu objetivo es confirmar que no se hayan activado incidentes nuevos y no documentados. Cualquier incidente que aparezca ya debe estar en la sección de problemas conocidos.


37.1.2. Panel AlertManager de Grafana

El panel de AlertManager ofrece una vista más inmediata y en tiempo real del estado del sistema, ya que muestra las alertas que se activan. A menudo, los problemas aparecerán aquí antes de que se cree un incidente de ServiceNow.

Un sistema en buen estado no mostrará alertas de activación nuevas. Todas las alertas activas deben verificarse en la página de problemas conocidos para confirmar que se trata del comportamiento esperado.


37.1.3. Interpreta los resultados

Cuando ambos paneles no muestran problemas nuevos ni no documentados, esto confirma que la implementación se realizó correctamente y que el sistema es estable.

Si detectas incidentes o alertas que no se mencionan en la página de problemas conocidos, sigue los pasos de clasificación y derivación que se describen en la lista de tareas mencionada anteriormente. Los nuevos falsos positivos se deben informar al equipo de ingeniería para que se aborden y documenten de manera adecuada.


37.2. Ejemplo de flujo de trabajo de evaluación inicial

Cuando una alerta nueva requiere investigación, el proceso general de clasificación en Grafana AlertManager incluye los siguientes pasos:

  1. Agrupa por prioridad: Primero, agrupa las alertas para enfocarte en los problemas más críticos. Group_by_prio

  2. Asigna un ticket: Para garantizar la propiedad y el seguimiento, asigna un ticket a la alerta. Ticket_assign

  3. Revisa las reglas de alerta: Investiga la regla de alerta específica que se activó para comprender sus condiciones y su propósito. Review_alerting_rules

  4. Verificar el estado de activación: Examina los detalles y el estado de la alerta de activación en el panel. Check_firing_state

  5. Verifica la alerta: Por último, confirma que la alerta se active y represente un problema válido antes de continuar con el proceso de derivación. Verify_Alert