Este documento descreve a abordagem da Google CloudGoogle para comunicar incidentes, incluindo as funções dos seguintes canais de comunicação principais: Personalized Service Health (PSH) e o painel de controlo público Google Cloud Service Health (CSH).
Onde procurar comunicações de incidentes
Google Cloud oferece dois canais para comunicação de incidentes, cada um com um objetivo diferente:
Personalized Service Health (PSH): esta é a sua principal fonte de interrupções de serviço relevantes para si. Oferece uma vista personalizada adaptada aos produtos específicos que usa. Google Cloud Recomendamos que integre o estado de funcionamento do serviço personalizado no seu processo de resposta a incidentes como um sinal de corroboração crítico.
Para evitar enviar uma mensagem a um engenheiro de serviço de apoio técnico para cada evento do Personalized Service Health, integre a visibilidade dos incidentes do Personalized Service Health nos painéis de controlo e nas ferramentas da sua equipa. Esta prática ajuda os operadores a determinar rapidamente se um problema suspeito está relacionado com uma Google Cloud interrupção do serviço. Saiba mais sobre o PSH.
Google Cloud Estado do serviço (CSH): Esta é a página de estado pública da Google Cloud, disponível em status.cloud.google.com. Google Cloud O Estado do serviço não requer início de sessão e serve como uma verificação de estado rápida para toda a plataforma. É usado para comunicar incidentes graves amplos ou quando o PSH em si não está disponível.

A nossa estratégia de divulgação e recomendações
Decidir o que partilhar e onde não é um processo arbitrário. É uma disciplina formal e sistemática baseada principalmente no âmbito de um incidente. O objetivo destes canais é oferecer a máxima visibilidade para incidentes graves generalizados, ao mesmo tempo que reduzem o ruído de incidentes irrelevantes.
Para incidentes graves amplos: os incidentes de âmbito alargado, ou seja, que afetam uma grande percentagem de projetos ou que estão generalizados em várias regiões, são comunicados através do Google Cloud Service Health (CSH). Estes incidentes também são comunicados aos clientes afetados através do estado do serviço personalizado. Isto ajuda a garantir que a mensagem chega ao público mais vasto possível para os eventos mais críticos.
Para outros incidentes confirmados: para problemas com um âmbito mais limitado, como os que afetam uma única localização, zona ou um subconjunto menor de projetos, comunicamos os incidentes relevantes aos clientes através do Personalized Service Health. O nosso objetivo é ser totalmente transparente, o que significa que o estado do serviço disponibiliza todos os eventos potencialmente relevantes para os seus serviços. Se precisar de um feed de eventos mais focado, o estado de funcionamento do serviço oferece ferramentas para filtrar e otimizar os eventos que são transmitidos através dos seus alertas e fluxos de trabalho automatizados.
- Recomendação: configure os alertas para se focarem apenas nos Google Cloud serviços e localizações mais críticos ou para serem acionados apenas em eventos com uma relevância de "Relacionado" ou "Afetado". Veja exemplos de como filtrar e otimizar os alertas.
Estratégias alternativas para a indisponibilidade do Personalized Service Health
O Personalized Service Health depende de serviços essenciais, como a gestão de identidade e de acesso para autenticação. Numa interrupção grave e generalizada, os serviços de que precisa para iniciar sessão podem ser afetados.
Recomendamos a seguinte estratégia alternativa:
Para processos manuais: os seus runbooks devem direcionar os operadores para o Google Cloud painel de controlo Service Health em status.cloud.google.com caso não consigam aceder ao painel de controlo Personalized Service Health.
Para sistemas automáticos: use a API Service Health Status para detetar programaticamente se o Personalized Service Health está a ter um problema. Se for, os seus sistemas podem voltar a carregar o feed RSS do CSH público para atualizações programáticas contínuas.