Per rimanere al corrente dell'integrità e dello stato dei tuoi Google Cloud prodotti, Google Cloud la pagina Stato del servizio fornisce informazioni sugli incidenti di larga scala in corso che soddisfano determinati criteri. Queste informazioni possono includere interruzioni del servizio, interruzioni del prodotto o messaggi informativi su un problema temporaneo.
Google Cloud Service Health è progettato per essere disponibile nel raro caso in cui Personalized Service Health stesso non sia disponibile o sia interessato da un'interruzione oppure se il prodotto interessato non è ancora stato integrato in Personalized Service Health.
Integrità dei servizi personalizzati fornisce una panoramica personalizzata dei prodotti e delle sedi Google Cloud supportati nella tua organizzazione. Utilizza Personalized Service Health come prima tappa in caso di interruzione del servizio e controlla se sono presenti comunicazioni relative a incidentiGoogle Cloud attivi e passati che potrebbero influire sui tuoi progetti. Personalized Service Health avrà sempre a disposizione le informazioni più aggiornate per i clientiGoogle Cloud . Puoi accedere a Personalized Service Health tramite la console Google Cloud, configurando gli avvisi e tramite l'API Personalized Service Health.
Questo documento è incentrato sull' Google Cloud integrità del servizio.
Accedi a Google Cloud Integrità dei servizi
Puoi accedere a Google Cloud Service Health tramite:
- Una dashboard dello stato pubblico: Google Cloud Service Health
- Un feed RSS pubblico
Nella console Google Cloud:
Nella console Google Cloud, vai alla pagina Assistenza > Richieste.
Utilizza il selettore delle risorse nella barra degli strumenti della console per selezionare la risorsa per la quale vuoi elencare i problemi noti.
Fai clic sulla scheda Problemi noti.
I problemi noti includono anche incidenti minori e con ambito limitato. Puoi collegare una richiesta di assistenza a un problema noto in modo da ricevere aggiornamenti regolari e poter comunicare con il personale dell'assistenza. Le richieste di assistenza sono appropriate per i problemi che non si qualificano come incidenti o per i quali è necessaria un'interazione diretta. Se hai l'assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza.
Se non riesci ad accedere a Google Cloud Stato del servizio tramite le risorse precedenti, puoi utilizzare il Google Cloud modulo per le domande sull'assistenza della piattaforma.
Incidenti di Google Cloud integrità dei servizi supportati
Per la maggior parte degli Google Cloud incidenti, i clienti interessati ricevono comunicazioni relative agli incidenti direttamente tramite Personalized Service Health nella console Google Cloud. Se soddisfano le condizioni di avviso, questi incidenti attivano anche gli avvisi di Service Health che hai configurato.
Gli incidenti che soddisfano uno dei seguenti criteri vengono visualizzati in Google Cloud Integrità del servizio:
- Incidenti gravi e pubblici
- Incidenti che si verificano quando la dashboard di Personalized Service Health non è disponibile
Incidente grave
Google Cloud definisce un incidente come grave se soddisfa tutte le seguenti condizioni:
- Ambito elevato: l'incidente ha un impatto globale o sta interessando una percentuale significativa di progetti dei clienti in più regioni.
- Gravità elevata: uno o più prodotti non sono disponibili o sono gravemente degradati.
Nei rari casi in cui si verifichi un incidente grave, agiamo con urgenza per risolvere eventuali problemi.
Durante un incidente grave, lo stato del problema viene comunicato tramite la dashboard di Service Health di Google Cloud. Un incidente grave è contrassegnato come Interruzione del servizio nella dashboard. Una volta risolto il problema, pubblichiamo un report pubblico sugli incidenti che include i dettagli dei fattori che hanno contribuito all'incidente e i passaggi che prevediamo di intraprendere per evitare che simili incidenti si ripetano.
In caso di incidenti di minore portata, potrebbe essere reso disponibile per i clienti un report non pubblico.
Ciclo di vita di un incidente
Quando viene rilevato un degrado del prodotto, il Google Cloud team di assistenza e il team di ingegneria del prodotto collaborano per risolvere l'incidente e fornirti aggiornamenti.
Il seguente diagramma mostra le responsabilità dei team di assistenza e di progettazione del prodotto:
Puoi scoprire di più su ciascuna di queste responsabilità nelle seguenti sezioni.
Rilevamento
Google Cloud utilizza il monitoraggio interno e sintetico per rilevare gli incidenti. Per ulteriori informazioni, consulta il capitolo 6 del libro Site Reliability Engineering.
Risposta iniziale
Quando viene rilevato un incidente, il Google Cloud team dell'assistenza clienti gestisce le comunicazioni con il cliente. La notifica iniziale di un incidente è spesso scarsa e spesso menziona solo il prodotto in questione. Questo perché diamo la priorità alle notifiche rapide rispetto ai dettagli. I dettagli possono essere forniti negli aggiornamenti successivi.
Per fornirti quante più informazioni possibili senza sovraccaricarti di problemi che non ti riguardano, vengono utilizzati diversi canali di comunicazione a seconda dell'ambito e della gravità del problema:
Indaga
I team di ingegneri di prodotto sono responsabili di analizzare la causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita dagli SRE, ma potrebbe essere eseguita da tecnici software o altri, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il capitolo 12 del libro Site Reliability Engineering.
Attenuazione e correzione
Un problema è considerato risolto solo quando sono state apportate modifiche che Google ritiene con certezza che metteranno fine all'impatto in modo definitivo. Ad esempio, la correzione potrebbe consistere nel rollback di una modifica che ha attivato un incidente.
Mentre è in corso un incidente, l'assistenza clienti e il team di prodotto tentano di mitigare il problema. Si parla di mitigazione quando è possibile ridurre l'impatto o l'ambito di un problema, ad esempio fornendo temporaneamente risorse aggiuntive a un prodotto in sovraccarico.
Se non viene trovata alcuna soluzione, il team dell'Assistenza clienti individua e comunica soluzioni alternative, se possibile. Le soluzioni alternative sono passaggi che puoi intraprendere per soddisfare la necessità di base nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare impostazioni diverse per una chiamata API per evitare un percorso di codice problematico.
Invia un follow-up
Mentre un incidente è ancora in corso, il team di assistenza clienti fornisce aggiornamenti regolari. Gli aggiornamenti in genere forniscono:
Ulteriori informazioni sull'incidente, ad esempio messaggi di errore, zone o regioni interessate, funzionalità interessate o percentuali di impatto.
Aggiornamento relativo alla mitigazione, incluse eventuali soluzioni alternative.
Tempistiche per la comunicazione, personalizzate in base all'incidente.
Modifiche dello stato, ad esempio quando un incidente viene risolto.
Retrospettiva
Tutti gli incidenti vengono sottoposti a un'analisi retrospettiva interna per comprenderli appieno e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti vengono poi monitorati e implementati. Per ulteriori informazioni, consulta il capitolo 15 del libro Site Reliability Engineering.
Report sull'incidente
Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che descrivono i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Come per le analisi retrospettive, prestiamo particolare attenzione ai passaggi che intraprendiamo per imparare dal problema e migliorare l'affidabilità. Lo scopo di Google nel scrivere e pubblicare i bilanci è essere trasparente e dimostrare il nostro impegno a creare prodotti stabili per i nostri clienti.
Modello di dati sugli incidenti
Un incidente può interessare uno o più prodotti in una o più località. Gli incidenti hanno un'ora di inizio e un'ora di fine, nonché una gravità complessiva. Un incidente ha aggiornamenti che descrivono come cambia nel tempo, incluso lo stato e le località interessate. Le informazioni sull'incidente vengono rese disponibili tramite uno schema JSON.
Lo schema JSON ha campi contrassegnati come Stabile e Instabile. In generale, i campi ID sono considerati stabili, mentre campi come i nomi visualizzati sono considerati instabili e potrebbero cambiare senza avviso. Utilizza i campi Stabili solo per l'integrazione con un sistema esterno o l'automazione degli edifici. Per ulteriori informazioni, consulta Posso creare integrazioni per utilizzare i dati di Service Health Google Cloud programmaticamente? in questo documento.
Domande frequenti
Le seguenti domande frequenti potrebbero esserti utili per monitorare il funzionamento e lo stato dei tuoi Google Cloud prodotti.
Dove posso trovare informazioni su interruzioni e interruzioni del servizio passate?
Google Cloud La pagina Stato del servizio tiene traccia delle interruzioni e delle interruzioni dei prodotti per un massimo di cinque anni.Google Cloud La dashboard mostra lo stato attuale dei prodotti in base alla lingua. Per visualizzare informazioni su interruzioni e interruzioni del servizio del prodotto nell'ultimo anno, fai clic su Visualizza cronologia incidenti. Per visualizzare la cronologia delle interruzioni di un prodotto negli ultimi cinque anni, fai clic su Scopri di più per quel prodotto.
Come faccio a visualizzare le informazioni sullo stato a livello di regione per i Google Cloud prodotti?
Google Cloud La scheda Integrità del servizio mostra lo stato di tutti Google Cloud i prodotti organizzati per regione e impostazioni internazionali. Per visualizzare lo stato di una regione con più regioni, seleziona la scheda specifica della regione.
Posso creare integrazioni per utilizzare i dati di Google Cloud Service Health in modo programmatico?
Sì, puoi utilizzare i dati visualizzati da Google Cloud Stato del servizio nei seguenti modi:
- Tramite un feed RSS
Tramite un file della cronologia JSON
Puoi scaricare lo schema per il file JSON dalla dashboard dello stato pubblico.
Il feed RSS e il file della cronologia JSON forniscono informazioni sullo stato degli incidenti che possono essere utilizzate tramite le integrazioni.
Utilizza i campi contrassegnati come Stabile nel file della cronologia JSON anziché i campi contrassegnati come Instabile. Ad esempio, se stai cercando di identificare in modo programmatico gli
incidenti che interessano un determinato insieme di prodotti, utilizza gli ID prodotto
(affected_products>id
), non i relativi nomi visualizzati.
ID prodotto e nomi dei prodotti
In passato, Google Cloud l'integrità del servizio non forniva un meccanismo per localizzare l'ID di un determinato prodotto. Dall'inizio del 2023, Google Cloud Service Health ha reso disponibile un catalogo dei prodotti che fornisce questa mappatura per tutti i prodotti. Un ID prodotto fornisce un campo stabile su cui basarsi e consente al contempo di modificare il nome visualizzato di un prodotto. Devi fare riferimento all'ID prodotto quando identifichi ed elenchi in modo programmatico gli incidenti che interessano un insieme di prodotti.
Che cosa succede se ho integrazioni basate su precedenti Google Cloud implementazioni di Integrità del servizio?
Sia nel feed RSS sia nel file JSON, le informazioni sullo stato regionale sono un'aggiunta alle informazioni già pubblicate prima dell'introduzione dei report sullo stato a livello di regione e della modifica del nome diGoogle Cloud Integrità del servizio. Pertanto, prevediamo che le tue integrazioni esistenti continueranno a funzionare. Tuttavia, se vuoi utilizzare le informazioni sullo stato regionale tramite le tue integrazioni, devi modificarle.
Ecco una descrizione dettagliata di come le informazioni regionali vengono presentate sia nel feed RSS sia nel file JSON:
Feed RSS
Le informazioni sullo stato regionale sono una nuova aggiunta alle informazioni del feed fornite prima dell'introduzione dello stato a livello di regione. Le sedi segnalate come interessate vengono aggiunte al messaggio RSS.
File JSON
Prima dell'aggiornamento dello stato a livello di regione, Google Cloud ha pubblicato uno stream di incidenti in cui ogni incidente conteneva un elenco dei prodotti interessati e un elenco di aggiornamenti dello stato per ciascuno, se presenti. Questi aggiornamenti dello stato contenevano un campo di stringhe non strutturate che conteneva o meno le informazioni sulla posizione.
Ora Google Cloud pubblica uno stream di incidenti,come faceva in precedenza. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene i seguenti nuovi campi:
updates.affected_locations
: contiene un elenco strutturato delle località interessate al momento della pubblicazione dell'aggiornamento. Ogni record di aggiornamento e ilmost_recent_update
record contengono questo campo.currently_affected_locations
: contiene le informazioni più recenti sulle località attivamente interessate dall'incidente. A differenza diupdates.affected_locations
, questo elenco diventa vuoto dopo la risoluzione dell'incidente (ovvero quandoend
è impostato su un valore diverso da vuoto).previously_affected_locations
: contiene un elenco di località che sono state precedentemente interessate da un incidente, ma non al momento. Man mano che l'incidente si evolve, per alcune località potrebbe essere disponibile una soluzione all'interruzione del servizio. Queste località continueranno a esistere inpreviously_affected_locations field
. Una volta risolto l'incidente (ovvero quandoend
è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate durante l'incidente.
Cosa succede se sto riscontrando un problema, ma non è elencato in Google Cloud Stato del servizio?
Google Cloud La funzionalità Integrità del servizio fornisce informazioni sullo stato attuale e storico di qualsiasi incidente grave che interessa i prodotti e i servizi. Google Cloud Se riscontri un problema non elencato daGoogle Cloud Stato del servizio, il problema potrebbe essere limitato ai tuoi progetti o alle tue istanze oppure potrebbe interessare un numero limitato di clienti. Gli incidenti con un ambito meno ampio possono essere elencati nel portale di assistenza. Puoi contattare l'assistenza clienti per eventuali problemi che non sono elencati in Google Cloud Stato del servizio.
Se utilizzi già Personalized Service Health, controlla se il problema è elencato per determinare se il tuo progetto o la tua istanza è interessato.
Se utilizzi la console Google Cloud, seleziona > Invia feedback nella barra degli strumenti in alto.
Chi aggiorna Google Cloud l'integrità dei servizi?
Il team di assistenza clienti globale monitora lo stato dei prodotti utilizzando molti tipi diversi di indicatori e aggiorna Google Cloud la salute del servizio in caso di un problema diffuso. Se necessario, pubblicheranno un report dettagliato sull'analisi dell'incidente dopo la risoluzione dell'incidente.
Passaggi successivi
- Creare e gestire le richieste di assistenza
- Lingue supportate e orario di lavoro
- Best practice per collaborare con l'assistenza clienti
- Best practice per l'utilizzo dell'Assistenza Premium
- Best practice per la privacy