Realizar análises post mortem completas

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a realizar análises post-mortem eficazes após falhas e incidentes.

Esse princípio é relevante para a área de foco de aprendizagem da confiabilidade.

Visão geral do princípio

Uma análise postmortem é um registro escrito de um incidente, do impacto dele, das ações tomadas para reduzir ou resolver o problema, das causas raiz e das ações de acompanhamento para evitar que ele aconteça de novo. O objetivo de uma análise retrospectiva é aprender com os erros, não apontar culpados.

O diagrama a seguir mostra o fluxo de trabalho de uma análise post-mortem:

O fluxo de trabalho de uma análise post mortem.

O fluxo de trabalho de uma análise post-mortem inclui as seguintes etapas:

  • Criar um postmortem
  • Capture os fatos
  • Identificar e analisar as causas principais
  • Planeje para o futuro
  • Execute o plano.

Realize análises post-mortem após eventos importantes e não importantes, como os seguintes:

  • Indisponibilidades ou degradações visíveis para o usuário além de um determinado limite.
  • Perdas de dados de qualquer tipo.
  • Intervenções de engenheiros de plantão, como uma reversão de lançamento ou redirecionamento de tráfego.
  • Tempos de resolução acima de um limite definido.
  • Falhas de monitoramento, que geralmente implicam descoberta manual de incidentes.

Recomendações

Defina critérios de análise pós-mortem antes de um incidente para que todos saibam quando ela é necessária.

Para fazer análises post-mortem eficazes, considere as recomendações nas subseções a seguir.

Realizar análises post-mortem sem culpa

As análises pós-mortem eficazes se concentram em processos, ferramentas e tecnologias, e não culpam indivíduos ou equipes. O objetivo de uma análise post-mortem é melhorar sua tecnologia e o futuro, não encontrar quem é culpado. Todo mundo comete erros. O objetivo é analisar os erros e aprender com eles.

Os exemplos a seguir mostram a diferença entre o feedback que atribui culpa e o feedback sem culpa:

  • Feedback que atribui culpa: "Precisamos reescrever todo o sistema de back-end complicado! Ele tem apresentado falhas semanais nos últimos três trimestres, e tenho certeza de que todos estão cansados de corrigir as coisas aos poucos. É sério, se eu receber mais um aviso, vou reescrever tudo sozinho…"
  • Feedback sem culpa: "Um item de ação para reescrever todo o sistema de back-end pode impedir que essas páginas continuem aparecendo. O manual de manutenção dessa versão é muito longo e difícil de aprender. Tenho certeza de que nossos futuros engenheiros de plantão vão agradecer!"

Deixe o relatório pós-mortem legível para todos os públicos-alvo pretendidos

Para cada informação que você planeja incluir no relatório, avalie se ela é importante e necessária para ajudar o público a entender o que aconteceu. Você pode mover dados e explicações complementares para um apêndice do relatório. Os revisores que precisarem de mais informações podem solicitar.

Evite soluções complexas ou excessivamente projetadas

Antes de começar a procurar soluções para um problema, avalie a importância dele e a probabilidade de recorrência. Adicionar complexidade ao sistema para resolver problemas que provavelmente não vão ocorrer de novo pode aumentar a instabilidade.

Compartilhe o post mortem o máximo possível

Para garantir que os problemas não fiquem sem solução, publique o resultado da análise post-mortem para um público amplo e receba apoio da gerência. O valor de uma análise post-mortem é proporcional ao aprendizado que ocorre depois dela. Quando mais pessoas aprendem com incidentes, a probabilidade de falhas semelhantes ocorrerem novamente é reduzida.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2024-12-30 UTC.