Esta página foi traduzida pela API Cloud Translation.

Realizar análises post mortem completas

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a realizar análises post-mortem eficazes após falhas e incidentes.

Esse princípio é relevante para a área de foco de aprendizado da confiabilidade.

Visão geral do princípio

Uma análise postmortem é um registro escrito de um incidente, do impacto dele, das ações tomadas para reduzir ou resolver o problema, das causas raiz e das ações de acompanhamento para evitar que ele aconteça de novo. O objetivo de uma análise retrospectiva é aprender com os erros, não apontar culpados.

O diagrama a seguir mostra o fluxo de trabalho de uma análise postmortem:

O fluxo de trabalho de uma análise post mortem.

O fluxo de trabalho de uma análise post-mortem inclui as seguintes etapas:

Criar um postmortem
Capture os fatos
Identificar e analisar as causas principais
Planeje para o futuro
Execute o plano.

Faça análises de retrospectiva após eventos importantes e não importantes, como os seguintes:

Indisponibilidades ou degradações visíveis para o usuário além de um determinado limite.
Perdas de dados de qualquer tipo.
Intervenções de engenheiros de plantão, como uma reversão de lançamento ou redirecionamento de tráfego.
Tempos de resolução acima de um limite definido.
Falhas de monitoramento, que geralmente implicam descoberta manual de incidentes.

Recomendações

Defina critérios de análise pós-mortem antes de um incidente para que todos saibam quando ela é necessária.

Para fazer análises post-mortem eficazes, considere as recomendações nas subseções a seguir.

Realizar análises post-mortem sem culpa

As análises pós-mortem eficazes se concentram em processos, ferramentas e tecnologias, sem culpar indivíduos ou equipes. O objetivo de uma análise post-mortem é melhorar sua tecnologia e o futuro, não encontrar quem é culpado. Todo mundo comete erros. O objetivo é analisar os erros e aprender com eles.

Confira a diferença entre o feedback que atribui culpa e o feedback sem culpa:

Feedback que atribui culpa: "Precisamos reescrever todo o sistema de back-end complicado! Ele tem apresentado falhas semanais nos últimos três trimestres, e tenho certeza de que todos estão cansados de corrigir as coisas aos poucos. É sério, se eu receber mais um aviso, vou reescrever tudo sozinho…"
Feedback sem culpa: "Um item de ação para reescrever todo o sistema de back-end pode impedir que essas páginas continuem aparecendo. O manual de manutenção dessa versão é muito longo e difícil de aprender. Tenho certeza de que nossos futuros engenheiros de plantão vão agradecer!"

Deixe o relatório pós-mortem legível para todos os públicos-alvo pretendidos

Para cada informação que você planeja incluir no relatório, avalie se ela é importante e necessária para ajudar o público a entender o que aconteceu. Você pode mover dados e explicações complementares para um apêndice do relatório. Os revisores que precisarem de mais informações podem solicitar.

Evite soluções complexas ou excessivamente projetadas

Antes de começar a procurar soluções para um problema, avalie a importância dele e a probabilidade de recorrência. Adicionar complexidade ao sistema para resolver problemas que provavelmente não vão ocorrer de novo pode aumentar a instabilidade.

Compartilhe o post mortem o máximo possível

Para garantir que os problemas não fiquem sem solução, publique o resultado da análise post-mortem para um público amplo e receba apoio da gerência. O valor de uma análise post-mortem é proporcional ao aprendizado que ocorre depois dela. Quando mais pessoas aprendem com incidentes, a probabilidade de falhas semelhantes ocorrerem novamente é reduzida.

Realização de testes para recuperação em caso de perda de dados