Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a identificar de forma proativa áreas em que erros e falhas podem ocorrer.
Esse princípio é relevante para a área de foco de observação da confiabilidade.
Visão geral do princípio
Para manter e melhorar a confiabilidade das cargas de trabalho no Google Cloud, é necessário implementar uma observabilidade eficaz usando métricas, registros e traces.
- As métricas são medições numéricas de atividades que você quer acompanhar no seu aplicativo em intervalos de tempo específicos. Por exemplo, talvez você queira rastrear métricas técnicas, como taxa de solicitação e taxa de erro, que podem ser usadas como indicadores de nível de serviço (SLIs). Talvez também seja necessário acompanhar métricas de negócios específicas do aplicativo, como pedidos feitos e pagamentos recebidos.
- Os registros são registros com carimbo de data/hora de eventos discretos que ocorrem em um aplicativo ou sistema. O evento pode ser uma falha, um erro ou uma mudança de estado. Os registros podem incluir métricas, e você também pode usá-los para SLIs.
- Um rastreamento representa a jornada de um único usuário ou transação por vários aplicativos separados ou componentes de um aplicativo. Por exemplo, esses componentes podem ser microsserviços. Os rastreamentos ajudam a acompanhar quais componentes foram usados nas jornadas, onde existem gargalos e quanto tempo as jornadas levaram.
Métricas, registros e rastreamentos ajudam você a monitorar seu sistema continuamente. O monitoramento abrangente ajuda você a descobrir onde e por que os erros ocorreram. Você também pode detectar possíveis falhas antes que os erros ocorram.
Recomendações
Para detectar possíveis falhas de maneira eficiente, considere as recomendações nas subseções a seguir.
Receba insights abrangentes
Para acompanhar métricas importantes, como tempos de resposta e taxas de erros, use o Cloud Monitoring e o Cloud Logging. Essas ferramentas também ajudam a garantir que as métricas atendam consistentemente às necessidades da sua carga de trabalho.
Para tomar decisões baseadas em dados, analise as métricas de serviço padrão para entender as dependências de componentes e o impacto delas no desempenho geral da carga de trabalho.
Para personalizar sua estratégia de monitoramento, crie e publique suas próprias métricas usando o SDK Google Cloud.
Fazer a solução de problemas proativa
Implemente um tratamento de erros robusto e ative o registro em todos os componentes das suas cargas de trabalho no Google Cloud. Ative registros como registros de acesso do Cloud Storage e registros de fluxo da VPC.
Ao configurar o registro em log, considere os custos associados. Para controlar os custos de geração de registros, configure filtros de exclusão nos coletores de registros para impedir que determinados registros sejam armazenados.
Otimizar a utilização de recursos
Monitore o consumo de CPU, as métricas de E/S de rede e de disco para detectar recursos subprovisionados e superprovisionados em serviços como GKE, Compute Engine e Dataproc. Para uma lista completa de serviços compatíveis, consulte a Visão geral do Cloud Monitoring.
Priorizar alertas
Para alertas, concentre-se em métricas críticas, defina limites adequados para minimizar a fadiga de alertas e garanta respostas rápidas a problemas significativos. Essa abordagem direcionada permite manter a confiabilidade da carga de trabalho de maneira proativa. Para mais informações, consulte Visão geral de alertas.