Tempo estimado para a conclusão: 5 dias
Proprietário do componente operacional: OLT
Perfil de habilidade: engenheiro de implantação
A partir da versão 1.14, a conclusão da implantação é verificada nos painéis do Observability and Monitoring Stack.
Verificar o painel de incidentes do ServiceNow
- Verifique se há incidentes novos ou não resolvidos relacionados à implantação.
Verificar o painel do Grafana AlertManager
- Procure alertas ativos.
Triagem de novos incidentes e alertas Para qualquer novo incidente do ServiceNow ou alerta do Grafana, siga estas etapas:
- Compare o problema com o documento de problemas conhecidos.
- Se o problema não estiver listado como conhecido, encaminhe para a engenharia avaliar o caminho a seguir. A resolução pode exigir que você faça o seguinte:
- Resolva o problema subjacente.
- Documente o alerta como um novo problema conhecido, por exemplo, se for um falso positivo.
37.1. Como verificar a integridade do sistema
Após a implantação, o principal indicador de integridade do sistema é a ausência de incidentes e alertas novos e inesperados no painel de incidentes do ServiceNow (SNOW) e no painel do AlertManager do Grafana.
37.1.1. Painel de incidentes do ServiceNow
O painel do ServiceNow oferece uma visão geral dos problemas significativos que foram automaticamente encaminhados pelo sistema. Após uma implantação, esse painel não deve mostrar incidentes críticos novos.
O objetivo é confirmar que nenhum incidente novo e não documentado foi acionado. Qualquer incidente que apareça já precisa estar listado na seção de problemas conhecidos.
37.1.2. Painel do AlertManager do Grafana
O painel do AlertManager oferece uma visão mais imediata e em tempo real do status do sistema mostrando alertas ativos. Um problema geralmente aparece aqui antes da criação de um incidente do ServiceNow.
Um sistema íntegro não mostra novos alertas de ativação. Todos os alertas ativos precisam ser verificados na página de problemas conhecidos para confirmar se o comportamento é esperado.
37.1.3. Como interpretar os resultados
Quando os dois painéis não mostram problemas novos e não documentados, isso é uma confirmação de que a implantação foi bem-sucedida e o sistema está estável.
Se você descobrir incidentes ou alertas que não estão listados na página de problemas conhecidos, siga as etapas de triagem e encaminhamento descritas na lista de verificação mencionada anteriormente. Novos falsos positivos precisam ser informados à engenharia para que possam ser tratados e documentados adequadamente.
37.2. Exemplo de fluxo de trabalho de triagem
Quando um novo alerta exige investigação, o processo geral de triagem no AlertManager do Grafana envolve as seguintes etapas:
Agrupar por prioridade: primeiro, agrupe os alertas para focar nos problemas mais críticos.

Atribuir um tíquete: para garantir a propriedade e o rastreamento, atribua um tíquete ao alerta.

Analise as regras de alerta: investigue a regra específica que foi acionada para entender as condições e a finalidade dela.

Verificar o estado de disparo: examine os detalhes e o estado do alerta de disparo no painel.

Verifique o alerta: por fim, confirme se o alerta está sendo disparado e representa um problema válido antes de continuar com o processo de encaminhamento.
