Crea sistemi ad alta disponibilità tramite la ridondanza delle risorse

Last reviewed 2024-12-30 UTC

Questo principio nel pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per pianificare, creare e gestire la ridondanza delle risorse, che può aiutarti a evitare errori.

Questo principio è pertinente all'ambito dell'area di interesse dell'affidabilità.

Panoramica del principio

Dopo aver deciso il livello di affidabilità di cui hai bisogno, devi progettare i tuoi sistemi per evitare qualsiasi single point of failure. Ogni componente critico del sistema deve essere replicato su più macchine, zone e regioni. Ad esempio, un database critico non può trovarsi in una sola regione e un server di metadati non può essere sottoposto a deployment in una sola zona o regione. In questi esempi, se l'unica zona o regione ha un'interruzione, il sistema ha un'interruzione globale.

Consigli

Per creare sistemi ridondanti, tieni presenti i consigli riportati nelle seguenti sottosezioni.

Identificare i domini di errore e replicare i servizi

Mappa i domini di errore del tuo sistema, dalle singole VM alle regioni, e progetta la ridondanza tra i domini di errore.

Per garantire l'alta disponibilità, distribuisci e replica i tuoi servizi e le tue applicazioni in più zone e regioni. Configura il sistema per il failover automatico per assicurarti che i servizi e le applicazioni continuino a essere disponibili in caso di interruzioni a livello di zona o regione.

Per esempi di architetture multizona e multiregionali, consulta Progettare un'infrastruttura affidabile per i carichi di lavoro in Google Cloud.

Rileva e risolvi i problemi tempestivamente

Monitora continuamente lo stato dei tuoi domini di errore per rilevare e risolvere i problemi tempestivamente.

Puoi monitorare lo stato attuale dei servizi in tutte le regioni utilizzando la Google Cloud dashboard di Service Health. Google Cloud Puoi anche visualizzare gli incidenti pertinenti al tuo progetto utilizzando Personalized Service Health. Puoi utilizzare i bilanciatori del carico per rilevare lo stato delle risorse e indirizzare automaticamente il traffico ai backend integri. Per saperne di più, consulta la panoramica dei controlli di integrità.

Testa gli scenari di failover

Come una prova di evacuazione in caso di incendio, simula regolarmente gli errori per convalidare l'efficacia delle strategie di replica e failover.

Per saperne di più, consulta Simula un'interruzione del servizio in una zona per un MIG regionale e Simula un errore di zona nei cluster regionali GKE.