Neste documento, descrevemos como acessar, investigar e gerenciar incidentes para políticas de alertas com base em métricas.
Antes de começar
Verifique se você tem as permissões necessárias:
-
Para ter as permissões necessárias para acessar incidentes usando o console do Google Cloud, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Leitor de incidentes do console do Cloud Monitoring (
roles/monitoring.cloudConsoleIncidentViewer
) -
Leitor de contas do Stackdriver (
roles/stackdriver.accounts.viewer
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
-
Leitor de incidentes do console do Cloud Monitoring (
-
Para receber as permissões necessárias para gerenciar incidentes usando o console do Google Cloud, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Editor de incidentes do Console do Cloud Monitoring (
roles/monitoring.cloudConsoleIncidentEditor
) -
Leitor de contas do Stackdriver (
roles/stackdriver.accounts.viewer
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
-
Editor de incidentes do Console do Cloud Monitoring (
Para mais informações sobre os papéis do Cloud Monitoring, consulte Controlar o acesso com o Identity and Access Management.
Encontrar incidentes
Para ver uma lista de incidentes, faça o seguinte:
-
No console do Google Cloud, acesse a página notifications Alertas:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoramento.
- O painel Resumo lista o número de incidentes abertos.
- O painel Incidentes exibe os incidentes abertos mais recentes. Para listar os incidentes mais recentes na tabela, incluindo aqueles que foram fechados, clique em Mostrar incidentes fechados.
Opcional: para visualizar os detalhes de um incidente específico, selecione o na lista. A página Detalhes do incidente é aberta. Para informações sobre esta página, consulte a seção Investigar incidentes desta página.
Encontrar incidentes mais antigos
O painel Incidentes na página Alertas mostra os incidentes abertos mais recentes. Para localizar incidentes mais antigos, siga um destes procedimentos:
Para percorrer as entradas na tabela Incidentes, clique em arrow_back_ios Mais recentes ou em arrow_forward_ios Mais antigos.
Para acessar a página Incidentes, clique em Ver todos os incidentes. De página Incidentes, poderá fazer o seguinte:
- Mostrar incidentes fechados: para listar todos os incidentes na tabela, clique em Mostrar incidentes fechados.
- Filtrar incidentes: para informações sobre como adicionar filtros, consulte Filtrar incidentes.
- Reconheça ou encerre um incidente ou adie a política de alertas. Para acessar essas opções, Clique em more_vert Mais opções na linha do incidente. e escolha uma opção no menu. Para mais informações, consulte Gerenciar incidentes.
Filtrar incidentes
Quando você insere um valor na barra de filtro, apenas os incidentes correspondentes ao filtro são listados na tabela Incidentes. Se você adicionar vários filtros, um incidente será exibido somente se atender a todos os filtros.
Para adicionar um filtro à tabela de incidentes, faça o seguinte:
Na página Incidentes, clique em filter_list Filtrar tabela e selecione uma propriedade de filtro. As propriedades de filtro incluem todas as seguintes:
- Estado do incidente
- Nome da política de alertas
- quando o incidente foi aberto ou fechado;
- Tipo de métrica
- Resource type
Selecione um valor no menu secundário ou digite um valor na barra de filtro.
Por exemplo, se você selecionar Tipo de métrica e inserir
usage_time
, poderá ver apenas as seguintes opções no menu secundário:agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
Investigar incidentes
Após encontrar o incidente que você quer investigar, acesse a página Detalhes do incidente. Para conferir os detalhes, selecione o resumo do incidente na tabela de incidentes nas páginas Alertas ou Incidentes.
Ou seja, se você recebeu uma notificação que inclui um link para incidente, você pode usar esse link para visualizar os detalhes dele.
A página Detalhes do incidente apresenta as seguintes informações:
Informações de status, incluindo:
- Nome: o nome da política de alertas que causou o o incidente.
- Status: o status do incidente: aberto, confirmado, ou fechados.
- Gravidade: a gravidade do incidente:
- Sem gravidade
- Crítico
- Erro
- Aviso
- Duração: o período durante o qual o incidente foi aberta.
Informações sobre a política de alertas que causou o incidente:
Painel Condition: identifica a condição no alerta política que causou o incidente.
Painel Mensagem: fornece uma breve explicação da causa com base na configuração da condição na política de alertas. Esse painel é sempre preenchido.
Painel Documentação: mostra o modelo de documentação de que você forneceu ao criar a política de alertas. Essas informações podem incluir uma descrição do que o e monitoramento de políticas e incluem dicas para mitigação.
Se você pulou esse campo ao criar a política de alertas, o painel vai exibir a mensagem "Nenhuma documentação configurado".
- Rótulos: informa o seguinte:
Os rótulos e valores do recurso monitorado e da métrica da série temporal que causou o incidente. Essas informações podem ajudar a identificar os eventos recurso que causou o incidente.
Ao usar variáveis na documentação de rótulos de métricas, O Monitoring omite o rótulo das notificações quando o valor do rótulo não começa com um dígito, uma letra, uma barra (
/
); ou um sinal de igual (=
).- Todos os rótulos e valores especificados pelo usuário que você definiu na política de alertas. É possível usar esses rótulos para organizar e identificar e políticas de alertas. Os rótulos associados a uma política são listados na seção Rótulos de política, enquanto os rótulos definidos como parte e uma condição são listadas na seção Rótulos de métrica. Metadados os rótulos só são exibidos quando há um filtro ou agrupamento que depende do rótulo. Para mais informações, consulte Faça anotações em alertas com rótulos.
A página Detalhes de incidentes também fornece ferramentas para investigar o incidente:
-
Linha do tempo de incidentes: mostra duas representações visuais do incidente:
- Na linha do tempo, uma barra vermelha representa o horário de um incidente. A duração e a posição da barra refletem a duração do incidente.
- Um gráfico mostra os dados e o limite de séries temporais usados pela política de alertas que causou o incidente. O incidente foi aberto quando alguma série temporal atendeu a uma condição da política de alertas.
O eixo de tempo indica a duração do incidente com dois pontos rotulados. A posição desses pontos no eixo de tempo determina o intervalo de dados mostrado no gráfico que acompanha a linha do tempo do incidente. Por padrão, um ponto é posicionado na abertura do incidente e outro no fechamento do incidente ou no horário atual, se o incidente ainda estiver aberto.
É possível modificar o intervalo de tempo na linha do tempo do incidente e no gráfico:
-
Para alterar o período mostrado no gráfico, arraste um dos pontos ao longo do eixo do tempo. Ao usar essa técnica, é possível se concentrar em intervalos específicos, como o início ou o fim do incidente, por exemplo.
Alterar o gráfico arrastando os pontos no eixo define um valor personalizado no menu Período e desativa o menu. Para ativar o menu Período, clique em Redefinir.
- Para alterar o período mostrado na linha do tempo, selecione um intervalo no menu Período.
- Links para outras ferramentas de solução de problemas. A configuração do projeto e da política de alertas e a idade do incidente determinam quais links estão disponíveis.
- Para ver a página de detalhes da política de alertas, clique em Ver política.
- Para editar a definição da política de alertas, clique em Editar política.
- Para acessar um painel de informações de desempenho do recurso, clique em Visualizar detalhes do recurso.
- Para ver as entradas relacionadas no Explorador de registros, clique em Ver registros. Para mais informações, consulte Confira os registros usando o Análise de registros.
- Para investigar os dados no gráfico, clique em Ver no Metrics Explorer.
- Anotações: fornece um registro das descobertas, dos resultados, das sugestões
ou de outros comentários da investigação do incidente.
- Para adicionar uma anotação, insira o texto no campo e clique em Adicionar comentário.
- Para descartar o comentário, clique em Cancelar.
Gerenciar incidentes
Os incidentes estão em um dos seguintes estados:
error Aberto: O conjunto de condições da política de alerta está sendo atendido ou não há dados para indicar que a condição não é mais atendida. Se uma política de alertas tiver várias condições, os incidentes são abertos dependendo sobre como essas condições são combinadas. Para mais informações, consulte Políticas com várias condições:
warning Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.
check_circle Fechada: o sistema observou que a condição parou de ser atendida, você fechou o incidente ou sete dias se passaram sem uma observação de que a condição continuou sendo atendida de dados.
Por exemplo, se você criar uma política de alertas que notifica quando a contagem de erros for maior do que 0, verifique se ele produz uma contagem de 0 erros quando não houver erros. Se a política de alertas retornar nulo ou vazio no estado livre de erros, então não haverá sinal para indicar quando o pararam. Em algumas situações, a linguagem de consulta do Monitoring (MQL, na sigla em inglês) permite que você especifique um valor padrão, que será usado quando nenhum valor medido estiver disponível. Para conferir um exemplo, consulte Proporção de uso.
Como confirmar incidentes
Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.
Para marcar um incidente como confirmado, faça o seguinte:
- No painel Incidentes da página Alertas, clique em Ver todos os incidentes.
Na página Incidentes, encontre o incidente que você quer confirmar e siga um destes procedimentos:
- Clique em more_vert Mais opções e selecione Confirmar.
- Abra a página de detalhes do incidente e clique em Confirmar incidente.
Se a política de alertas estiver configurada enviar notificações repetidas e confirmar uma incidente não interrompe as notificações. Para interrompê-los, siga um destes procedimentos:
- Crie um adiamento para a política de alertas.
- Desative a política de alertas.
Adiar uma política de alertas
Para impedir que o Monitoring crie incidentes e envie notificações durante um período específico, adie a política de alertas relacionada. Quando você adia uma política de alertas, o Monitoring também encerra incidentes relacionados à política de alertas.
Para criar um adiamento para um incidente que você está visualizando, faça o seguinte:
Na página Detalhes do incidente, clique em Adiar.
Selecione a duração do adiamento. Depois de selecionar a duração do adiamento, ele começa imediatamente.
Na página de detalhes de um incidente, você pode criar um adiamento para o política de alertas relacionada clicando em Adiar e escolhendo um duração O adiamento vai começar imediatamente. Você também pode adiar uma política de alertas na página Incidentes encontrando a incidente que você quer adiar, clicando em more_vert Mais opções e selecione Adiar. É possível adiar as políticas de alertas durante interrupções para evitar notificações durante o processo de solução de problemas.
Fechar incidentes
É possível permitir que o Monitoring feche um incidente ou fechar um incidente depois que as observações pararem de chegar. Se você encerrar um incidente e receber dados que indicam a condição um novo incidente é criado. Quando você fecha um incidente, essa ação não fecha nenhum outro incidente aberto para a mesma condição. Se você adiar uma política de alertas, incidentes abertos serão fechado quando a soneca for iniciada.
O Monitoring fecha automaticamente um incidente quando uma das seguintes situações ocorre:
Condições de limite de métrica:
- Chega uma observação que indica que o limite não foi violado.
Nenhuma observação chega. A condição está configurada para encerrar incidentes quando as observações param de chegar e o estado do recurso subjacente é desconhecido ou não foi desativado.
Nenhuma observação chega durante a duração do fechamento automático do alerta. e se a condição não estiver configurada para encerrar incidentes automaticamente quando as observações param de chegar. Para configurar o fechamento automático use o console do Google Cloud ou a API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias. A duração mínima de fechamento automático é de 30 minutos.
Condições de ausência de métrica:
- ocorre uma observação.
- Nenhuma observação chega por 24 horas depois a duração do fechamento automático da política de alertas expira. Para configurar a duração do fechamento automático, use o console do Google Cloud ou o API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias.
Condições de previsão:
- Uma previsão é produzida e prevê que a série temporal não violará o limite na janela de previsão.
Nenhuma observação chega por 10 minutos, a condição é configurada para fechar incidentes quando as observações param de chegar e o estado do recurso subjacente é desconhecido ou não está desativado.
Nenhuma observação chega durante a duração do fechamento automático do alerta. e se a condição não estiver configurada para encerrar incidentes automaticamente quando as observações param de chegar.
Por exemplo, uma política de alertas gerou um incidente porque a latência da resposta HTTP foi maior que 2 segundos por 10 minutos consecutivos. Se a próxima medição da latência de resposta HTTP for menor ou igual a dois segundos, o incidente será fechado. Da mesma forma, se nenhum dado for recebido por sete dias, o incidente será fechado.
Para fechar um incidente, faça o seguinte:
- No painel Incidentes da página Alertas, clique em Ver todos os incidentes.
Na página Incidentes, encontre o incidente que você quer fechar e siga um destes procedimentos:
- Clique em more_vert Ver mais e selecione Fechar incidente.
- Abra a página de detalhes do incidente e clique em Fechar incidente.
Se você vir a mensagem Unable to close incident with active conditions
,
o incidente não poderá ser fechado porque os dados foram recebidos no
período de alerta mais recente.
Se você vir a mensagem Unable to close incident. Please try again in a few minutes.
, não foi possível encerrar o incidente devido a um erro interno.
Retenção e limites de dados
Para informações sobre limites e o período de retenção de incidentes, consulte Limites de alertas.
A seguir
- Para criar e gerenciar políticas de alertas com a API Cloud Monitoring ou Na linha de comando, consulte Gerenciar políticas de alertas por API.