Questo principio nel pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per pianificare, creare e gestire la ridondanza delle risorse, che può aiutarti a evitare errori.
Questo principio è pertinente all'ambito dell'area di interesse dell'affidabilità.
Panoramica del principio
Dopo aver deciso il livello di affidabilità di cui hai bisogno, devi progettare i tuoi sistemi per evitare qualsiasi single point of failure. Ogni componente critico del sistema deve essere replicato su più macchine, zone e regioni. Ad esempio, un database critico non può trovarsi in una sola regione e un server di metadati non può essere sottoposto a deployment in una sola zona o regione. In questi esempi, se l'unica zona o regione ha un'interruzione, il sistema ha un'interruzione globale.
Consigli
Per creare sistemi ridondanti, tieni presenti i consigli riportati nelle seguenti sottosezioni.
Identificare i domini di errore e replicare i servizi
Mappa i domini di errore del tuo sistema, dalle singole VM alle regioni, e progetta la ridondanza tra i domini di errore.
Per garantire l'alta disponibilità, distribuisci e replica i tuoi servizi e le tue applicazioni in più zone e regioni. Configura il sistema per il failover automatico per assicurarti che i servizi e le applicazioni continuino a essere disponibili in caso di interruzioni a livello di zona o regione.
Per esempi di architetture multizona e multiregionali, consulta Progettare un'infrastruttura affidabile per i carichi di lavoro in Google Cloud.
Rileva e risolvi i problemi tempestivamente
Monitora continuamente lo stato dei tuoi domini di errore per rilevare e risolvere i problemi tempestivamente.
Puoi monitorare lo stato attuale dei servizi in tutte le regioni utilizzando la Google Cloud dashboard di Service Health. Google Cloud Puoi anche visualizzare gli incidenti pertinenti al tuo progetto utilizzando Personalized Service Health. Puoi utilizzare i bilanciatori del carico per rilevare lo stato delle risorse e indirizzare automaticamente il traffico ai backend integri. Per saperne di più, consulta la panoramica dei controlli di integrità.
Testa gli scenari di failover
Come una prova di evacuazione in caso di incendio, simula regolarmente gli errori per convalidare l'efficacia delle strategie di replica e failover.
Per saperne di più, consulta Simula un'interruzione del servizio in una zona per un MIG regionale e Simula un errore di zona nei cluster regionali GKE.