Visão geral de alerta

Os alertas ajudam você a ficar informado sobre a integridade e a performance das suas implantações isoladas. Elas enviam notificações oportunas quando condições específicas são atendidas, permitindo que você faça o seguinte:

  • Resolva problemas de forma proativa: detecte e responda a problemas antes que eles afetem os usuários ou as operações comerciais.
  • Reduza o tempo de inatividade: minimize as interrupções de serviço tomando medidas corretivas rapidamente.
  • Manter níveis de serviço: garanta que seus aplicativos atendam às metas de desempenho e disponibilidade.
  • Receba insights operacionais: identifique tendências e padrões no seu ambiente para otimizar a utilização e o desempenho dos recursos.

Nesta página, você encontra uma visão geral da criação e do gerenciamento de alertas em ambientes isolados do Google Distributed Cloud (GDC). Ele explica como usar os dados de monitoramento para identificar e responder de forma proativa a eventos críticos nos seus aplicativos e infraestrutura.

Tipos de políticas de alertas

As políticas de alertas com base em métricas rastreiam dados de monitoramento e notificam pessoas específicas quando um recurso atende a uma condição preestabelecida. Por exemplo, uma política de alertas que monitora a utilização da CPU de uma máquina virtual pode enviar uma notificação quando um evento a ativa. Como alternativa, uma política que monitora uma verificação de tempo de atividade pode notificar as equipes de desenvolvimento e de plantão.

Por outro lado, para monitorar eventos recorrentes nos registros ao longo do tempo, use métricas com base em registros para criar políticas de alertas. As métricas com base em registros geram dados numéricos com base nos dados de registro. As métricas com base em registros são adequadas quando você quer fazer o seguinte:

  • Conte as ocorrências de mensagens nos seus registros, como um aviso ou erro. Receber uma notificação quando o número de eventos ultrapassar um limite.
  • Note as tendências nos dados, como os valores de latência nos registros. Receba uma notificação se os valores mudarem de maneira inaceitável.
  • Crie gráficos para exibir os dados numéricos extraídos dos registros.

No GDC, os alertas podem gerar páginas e tíquetes para erros críticos. As páginas exigem atenção imediata de um operador, enquanto os tíquetes são menos urgentes.

Principais componentes

O serviço de alertas do GDC usa os seguintes componentes:

  • Prometheus: um sistema de monitoramento de código aberto muito usado para coletar e armazenar métricas. Ele oferece uma linguagem de consulta eficiente (PromQL) para definir regras de alerta.
  • Plataforma de monitoramento: um serviço de monitoramento gerenciado que coleta métricas de várias fontes, incluindo o Prometheus. Ele oferece recursos avançados, como painéis do Grafana, métricas personalizadas e alertas.
  • Alertmanager: um componente responsável por receber, processar e encaminhar alertas. Ele oferece suporte ao agrupamento, silenciamento e inibição de alertas para reduzir o ruído e melhorar a eficiência.

Fluxo de trabalho de alertas

O GDC oferece um framework de alertas que se integra a várias ferramentas e serviços de monitoramento. O fluxo de trabalho típico envolve as seguintes etapas:

  1. Coleta de dados: use ferramentas como Prometheus e Fluent Bit para coletar métricas e registros dos seus aplicativos, infraestrutura e Kubernetes.
  2. Monitoring: armazene e visualize os dados coletados em painéis do Grafana.
  3. Regras de alerta: defina regras de alerta com base em condições específicas, como o uso da CPU exceder um limite ou erros de aplicativo excederem uma determinada taxa.
  4. Alertmanager: recebe alertas acionados pelas regras definidas e gerencia o encaminhamento e o silenciamento de notificações.
  5. Notificações: receba alertas por vários canais, como e-mail, mensagens ou webhooks.

Práticas recomendadas

Ao configurar alertas, considere as seguintes práticas recomendadas:

  • Defina alertas claros e úteis: garanta que eles forneçam informações específicas sobre o problema e sugiram ações adequadas.
  • Defina níveis de gravidade adequados: categorize os alertas com base no impacto e na urgência para priorizar os esforços de resposta.
  • Evite o cansaço de alertas: ajuste as regras de alerta para minimizar falsos positivos e notificações desnecessárias.
  • Teste seus alertas regularmente: verifique se eles são acionados corretamente e se as notificações são entregues como esperado.
  • Documente sua estratégia de alerta: documente suas regras de alerta, canais de notificação e procedimentos de encaminhamento.