Rileva potenziali errori utilizzando l'osservabilità

Last reviewed 2024-12-30 UTC

Questo principio del pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a identificare in modo proattivo le aree in cui potrebbero verificarsi errori e guasti.

Questo principio è pertinente all'area di interesse dell'osservazione dell'affidabilità.

Panoramica del principio

Per mantenere e migliorare l'affidabilità dei tuoi workload in Google Cloud, devi implementare un'osservabilità efficace utilizzando metriche, log e tracce.

  • Le metriche sono misurazioni numeriche delle attività che vuoi monitorare per la tua applicazione a intervalli di tempo specifici. Ad esempio, potresti voler monitorare metriche tecniche cometasso di richiestee e il tasso di errore, che possono essere utilizzate come indicatori del livello del servizio (SLI). Potresti anche dover monitorare metriche aziendali specifiche dell'applicazione, come ordini effettuati e pagamenti ricevuti.
  • I log sono record con timestamp di eventi discreti che si verificano all'interno di un'applicazione o di un sistema. L'evento potrebbe essere un errore, un problema o una modifica dello stato. I log possono includere metriche e puoi anche utilizzarli per gli indicatori di livello del servizio.
  • Una traccia rappresenta il percorso di un singolo utente o transazione attraverso una serie di applicazioni separate o i componenti di un'applicazione. Ad esempio, questi componenti potrebbero essere microservizi. Le tracce ti aiutano a monitorare i componenti utilizzati nei viaggi, i punti critici e la durata dei viaggi.

Metriche, log e tracce ti aiutano a monitorare continuamente il sistema. Il monitoraggio completo ti aiuta a scoprire dove e perché si sono verificati errori. Puoi anche rilevare potenziali guasti prima che si verifichino errori.

Consigli

Per rilevare in modo efficiente potenziali guasti, considera i consigli riportati nelle sottosezioni seguenti.

Ottenere informazioni complete

Per monitorare le metriche chiave come i tempi di risposta e le percentuali di errore, utilizza Cloud Monitoring e Cloud Logging. Questi strumenti ti aiutano anche a garantire che le metriche soddisfino costantemente le esigenze del tuo carico di lavoro.

Per prendere decisioni basate sui dati, analizza le metriche del servizio predefinito per comprendere le dipendenze dei componenti e il loro impatto sulle prestazioni complessive del carico di lavoro.

Per personalizzare la strategia di monitoraggio, crea e pubblica le tue metriche utilizzando Google Cloud SDK.

Eseguire la risoluzione dei problemi proattiva

Implementa una gestione degli errori efficace e abilita la registrazione in tutti i componenti dei tuoi carichi di lavoro in Google Cloud. Attiva i log come Log di accesso di Cloud Storage e Log di flusso VPC.

Quando configuri la registrazione, considera i costi associati. Per controllare i costi di logging, puoi configurare i filtri di esclusione sui sink di log per escludere l'archiviazione di determinati log.

Ottimizzare l'utilizzo delle risorse

Monitora il consumo di CPU, le metriche di I/O di rete e le metriche di I/O del disco per rilevare risorse con provisioning insufficiente e con provisioning eccessivo in servizi come GKE, Compute Engine e Dataproc. Per un elenco completo dei servizi supportati, consulta la panoramica di Cloud Monitoring.

Dare la priorità agli avvisi

Per gli avvisi, concentrati sulle metriche critiche, imposta soglie appropriate per ridurre al minimo l'affaticamento da avvisi e assicurati risposte tempestive a problemi significativi. Questo approccio mirato ti consente di mantenere in modo proattivo l'affidabilità del workload. Per ulteriori informazioni, consulta la panoramica degli avvisi.