Esta página foi traduzida pela API Cloud Translation.

Detectar falhas em potencial usando a observabilidade

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a identificar de forma proativa áreas em que erros e falhas podem ocorrer.

Esse princípio é relevante para a área de foco de observação da confiabilidade.

Visão geral do princípio

Para manter e melhorar a confiabilidade das cargas de trabalho no Google Cloud, é necessário implementar uma observabilidade eficaz usando métricas, registros e traces.

As métricas são medições numéricas de atividades que você quer acompanhar no seu aplicativo em intervalos de tempo específicos. Por exemplo, talvez você queira acompanhar métricas técnicas, como taxa de solicitação e taxa de erro, que podem ser usadas como indicadores de nível de serviço (SLIs). Talvez também seja necessário acompanhar métricas de negócios específicas do aplicativo, como pedidos feitos e pagamentos recebidos.
Os registros são registros com carimbo de data/hora de eventos discretos que ocorrem em um aplicativo ou sistema. O evento pode ser uma falha, um erro ou uma mudança de estado. Os registros podem incluir métricas, e você também pode usá-los para SLIs.
Um rastreamento representa a jornada de um único usuário ou transação por vários aplicativos separados ou componentes de um aplicativo. Por exemplo, esses componentes podem ser microsserviços. Os rastreamentos ajudam a acompanhar quais componentes foram usados nas jornadas, onde existem gargalos e quanto tempo as jornadas levaram.

Métricas, registros e rastreamentos ajudam você a monitorar seu sistema continuamente. O monitoramento abrangente ajuda você a descobrir onde e por que os erros ocorreram. Você também pode detectar possíveis falhas antes que os erros ocorram.

Recomendações

Para detectar possíveis falhas de maneira eficiente, considere as recomendações nas subseções a seguir.

Receba insights abrangentes

Para acompanhar métricas importantes, como tempos de resposta e taxas de erros, use o Cloud Monitoring e o Cloud Logging. Essas ferramentas também ajudam a garantir que as métricas atendam consistentemente às necessidades da sua carga de trabalho.

Para tomar decisões baseadas em dados, analise as métricas de serviço padrão e entenda as dependências de componentes e o impacto delas no desempenho geral da carga de trabalho.

Para personalizar sua estratégia de monitoramento, crie e publique suas próprias métricas usando o SDK Google Cloud.

Faça uma solução de problemas proativa

Implemente um tratamento de erros robusto e ative o registro em todos os componentes das suas cargas de trabalho no Google Cloud. Ative registros como registros de acesso do Cloud Storage e registros de fluxo da VPC.

Ao configurar o registro em log, considere os custos associados. Para controlar os custos de geração de registros, configure filtros de exclusão nos coletores de registros para impedir que determinados registros sejam armazenados.

Otimizar a utilização de recursos

Monitore o consumo de CPU, as métricas de E/S de rede e de disco para detectar recursos subprovisionados e superprovisionados em serviços como GKE, Compute Engine e Dataproc. Para uma lista completa dos serviços compatíveis, consulte a Visão geral do Cloud Monitoring.

Priorizar alertas

Para alertas, concentre-se em métricas críticas, defina limites adequados para minimizar a fadiga de alertas e garanta respostas rápidas a problemas significativos. Essa abordagem direcionada permite manter a confiabilidade da carga de trabalho de maneira proativa. Para mais informações, consulte Visão geral de alertas.

Detectar falhas em potencial usando a observabilidade Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.