Ciclo de vida de um incidente

Este documento explica como a equipe de suporte do Google Cloud e a equipe de engenharia de produtos trabalham juntas para resolver um incidente e fornecer atualizações.

O diagrama a seguir mostra as responsabilidades das equipes de engenharia de produtos e suporte.

Diagrama do ciclo de vida

As seções a seguir explicam essas responsabilidades.

Detecção

Google Cloud usa monitoramento interno e sintético para detectar incidentes. Para mais informações, consulte o capítulo 6 do manual de engenharia de confiabilidade do site.

Resposta inicial

Quando um incidente é detectado, a equipe do Google Cloud Service Health gerencia as comunicações com os clientes. A notificação inicial de um incidente geralmente é esparsa e quase sempre é mencionado apenas o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes. Os detalhes serão fornecidos nas atualizações subsequentes.

Para fornecer o máximo de informações possível, sem sobrecarregar você com problemas que não atingem você, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema:

Diagrama de comunicação

Investigar

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também é realizado por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o Capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação e correção

Um problema é considerado corrigido somente quando o Google tiver certeza de que as alterações feitas terminarão com o impacto de uma vez por todas. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Enquanto um incidente está em andamento, o Service Health e a equipe do produto tentam mitigar o problema. A mitigação ocorre quando for possível reduzir o impacto ou o escopo de um problema, por exemplo, ao fornecer temporariamente mais recursos a um produto sobrecarregado.

Se nenhuma mitigação for possível, a equipe Service Health encontrará e informará soluções alternativas. Soluções alternativas são as etapas que você executa para solucionar o problema subjacente, apesar do incidente. Uma exemplo de solução alternativa é o uso de configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

Acompanhar

Enquanto um incidente está em andamento, a equipe do Service Health fornece atualizações regulares. Normalmente, as atualizações fornecem o seguinte:

  • Mais informações sobre o incidente, como mensagens de erro, zonas ou regiões afetadas, quais recursos foram afetados ou o percentual de impacto.

  • O progresso da atenuação, incluindo quaisquer soluções alternativas.

  • Cronogramas de comunicação adaptados ao incidente.

  • Alterações no status, por exemplo, quando um incidente é corrigido.

Retrospectiva

Todos os incidentes passam por uma análise retrospectiva interna para entender completamente o incidente e identificar melhorias de confiabilidade que o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações, consulte o capítulo 15 do manual Engenharia de confiabilidade do site.

Relatórios de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nas retrospectivas, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e divulgar retrospectivas é ser transparente e demonstrar nosso compromisso em criar produtos estáveis para nossos clientes.