Panoramica degli avvisi

Gli avvisi ti aiutano a rimanere informato sull'integrità e sul rendimento delle tue implementazioni air-gap. Forniscono notifiche tempestive quando vengono soddisfatte condizioni specifiche, consentendoti di:

  • Risolvi i problemi in modo proattivo: rileva e risolvi i problemi prima che influenzino gli utenti o le operazioni aziendali.
  • Ridurre i tempi di inattività: riduci al minimo le interruzioni del servizio intervenendo rapidamente.
  • Mantieni i livelli di servizio: assicurati che le tue applicazioni soddisfino i target di prestazioni e disponibilità.
  • Ottieni approfondimenti operativi: identifica tendenze e pattern nel tuo ambiente per ottimizzare l'utilizzo e il rendimento delle risorse.

Questa pagina fornisce una panoramica della creazione e della gestione degli avvisi negli ambienti air-gap di Google Distributed Cloud (GDC). Spiega come utilizzare i dati di monitoraggio per identificare e rispondere in modo proattivo agli eventi critici all'interno delle applicazioni e dell'infrastruttura.

Tipi di criteri di avviso

I criteri di avviso basati su metriche monitorano i dati di monitoraggio e inviano una notifica a persone specifiche quando una risorsa soddisfa una condizione prestabilita. Ad esempio, un criterio di avviso che monitora l'utilizzo della CPU di una macchina virtuale potrebbe inviare una notifica quando un evento attiva il criterio. In alternativa, un criterio che monitora un controllo di uptime potrebbe inviare una notifica ai team di sviluppo e di reperibilità.

D'altra parte, per monitorare gli eventi ricorrenti nei log nel tempo, utilizza le metriche basate su log per creare policy di avviso. Le metriche basate su log generano dati numerici dai dati di logging. Le metriche basate su log sono adatte quando vuoi eseguire una delle seguenti operazioni:

  • Conta le occorrenze del messaggio nei log, ad esempio un avviso o un errore. Ricevi una notifica quando il numero di eventi supera una soglia.
  • Osserva le tendenze nei tuoi dati, ad esempio i valori di latenza nei log. Ricevi una notifica se i valori cambiano in modo inaccettabile.
  • Crea grafici per visualizzare i dati numerici estratti dai log.

In GDC, gli avvisi possono generare pagine e ticket per gli errori critici. Le pagine richiedono l'attenzione immediata di un operatore, mentre i ticket sono meno urgenti.

Componenti chiave

Il servizio di avvisi GDC utilizza i seguenti componenti:

  • Prometheus: un sistema di monitoraggio open source ampiamente utilizzato per la raccolta e l'archiviazione delle metriche. Fornisce un potente linguaggio di query (PromQL) per definire le regole di avviso.
  • Piattaforma di monitoraggio: un servizio di monitoraggio gestito che raccoglie metriche da varie origini, tra cui Prometheus. Offre funzionalità avanzate come dashboard Grafana, metriche personalizzate e avvisi.
  • Alertmanager: un componente responsabile della ricezione, dell'elaborazione e dell'instradamento degli avvisi. Supporta il raggruppamento, la disattivazione e l'inibizione degli avvisi per ridurre il rumore e migliorare l'efficienza.

Flusso di lavoro di avviso

GDC fornisce un framework di avvisi che si integra con vari strumenti e servizi di monitoraggio. Il workflow tipico prevede le seguenti fasi:

  1. Raccolta dei dati: utilizza strumenti come Prometheus e Fluent Bit per raccogliere metriche e log da applicazioni, infrastruttura e Kubernetes.
  2. Monitoraggio: archivia e visualizza i dati raccolti nelle dashboard di Grafana.
  3. Regole di avviso: definisci regole di avviso in base a condizioni specifiche, ad esempio l'utilizzo della CPU che supera una soglia o gli errori dell'applicazione che superano una determinata frequenza.
  4. Alertmanager: Alertmanager riceve gli avvisi attivati dalle regole definite e gestisce il routing e la disattivazione delle notifiche.
  5. Notifiche: ricevi avvisi tramite vari canali, come email, messaggi o webhook.

Best practice

Quando configuri gli avvisi, tieni presente le seguenti best practice:

  • Definisci avvisi chiari e strategici: assicurati che gli avvisi forniscano informazioni specifiche sul problema e suggeriscano azioni appropriate.
  • Imposta livelli di gravità appropriati: classifica gli avvisi in base al loro impatto e alla loro urgenza per dare la priorità alle azioni di risposta.
  • Evita l'affaticamento da avvisi: perfeziona le regole di avviso per ridurre al minimo i falsi positivi e le notifiche non necessarie.
  • Testa regolarmente gli avvisi: verifica che gli avvisi vengano attivati correttamente e che le notifiche vengano recapitate come previsto.
  • Documenta la tua strategia di avviso: documenta le regole di avviso, i canali di notifica e le procedure di riassegnazione.