Bien que les interruptions de service soient inévitables, une communication transparente et précoce est essentielle pour évaluer ce qui se passe, tenir vos parties prenantes informées et prendre des mesures pour minimiser l'impact sur votre activité.
L'exploitation d'une application cloud fiable est une responsabilité partagée entreGoogle Cloud et les développeurs d'applications. En cas d'interruption de service,Google Cloud vise à communiquer rapidement l'incident et à fournir une évaluation de son impact. Vous devez évaluer comment recevoir des notifications, agir en cas d'incidents émergents et gérer l'impact sur votre application.
Personalized Service Health peut vous aider. Vous pouvez l'intégrer de différentes manières pour être informé des incidents émergents, évaluer l'impact sur vos applications et recevoir des informations de la part de Google Cloud. Ce document présente la façon de recevoir des signaux d'indisponibilité de service depuisGoogle Cloud, y compris des recommandations sur l'intégration à ces signaux.
Choisir où intégrer
Personalized Service Health offre une vue personnalisée des produits Google Cloud utilisés par vos projets ou dans votre organisation. Nous vous recommandons de l'intégrer à Personalized Service Health pour bénéficier de la couverture et de la gamme d'options d'intégration les plus étendues.
Point d'intégration | Cas d'utilisation | Avantages | Dépendances |
Tableau de bord de la console (état personnalisé du service) | Afficher les perturbations actives | Personnalisé pour vos projets, disponible par défaut | Identity and Access Management (IAM) Google Cloud console |
Alertes (Personalized Service Health) | Notifications proactives | Personnalisé pour vos projets, pratique et proactif | IAM Cloud Logging Cloud Monitoring |
API (état de santé personnalisé des services) | Intégrer à un autre système ou outil | Personnalisé pour vos projets ou votre organisation | IAM |
Choisir une méthode d'interaction avec Personalized Service Health
Vous devez tenir compte de Personalized Service Health dans le contexte de vos opérations, de votre surveillance et de votre modèle de gestion des incidents prévus. En évaluant la façon dont vos équipes utilisent les signaux pendant et avant les incidents, vous pouvez décider comment utiliser l'état de santé personnalisé des services.
Le tableau suivant montre comment vous pouvez interagir avec l'état de santé personnalisé des services, en fonction de sa configuration.
Exemple de scénario dans votre organisation | Intégration à Personalized Service Health | Exemples d'outils que vous pouvez intégrer |
Développeurs de garde pour quelques applications | Alertes de projet individuelles
Tableau de bord de la console |
Google Cloud Observability, PagerDuty |
Réponse centralisée aux incidents dans une organisation | Intégration de l'API au système existant à l'aide de l'API OrganizationEvents (v1, v1beta) | PagerDuty, tableaux de bord personnalisés |
Plate-forme interne permettant de gérer les ressources et les opérations cloud | API Service Health Alertes de projet individuel Intégration de l'API Service Health à une plate-forme de développement interne |
Backstage, Terraform |
Nombreux projets configurés et gérés de manière programmatique (par exemple,1 000 ou plus) | API Service Health Notifications automatisées basées sur les API |
Backstage, Terraform, PagerDuty |
Utiliser Personalized Service Health lors d'un incident
Une fois que vous avez intégré Personalized Service Health et que vous commencez à recevoir des notifications d'alerte, Personalized Service Health fournit des informations sur les interruptions de Google Cloudqui peuvent vous aider à gérer leur impact.
Détecter et évaluer l'incident
Voici quelques exemples de questions que vous pourriez poser à ce stade :
- Est-ce un vrai problème ?
- Pouvez-vous valider l'impact ?
- Quels sont les symptômes ?
- Quels utilisateurs, produits ou parties de l'entreprise sont concernés ? Quelles zones géographiques ?
Personalized Service Health vous aide à déterminer si le problème provient de votre projet ou de Google, afin que vous puissiez mettre en œuvre la réponse appropriée aux incidents. Il vous permet de trouver et d'afficher des informations sur les événements afin de pouvoir les surveiller, ainsi que les produits et les lieux concernés qui affectent votre projet.
Voici quelques étapes que vous pouvez suivre :
- Examinez l'alerte, si vous l'avez configurée.
- Qu'est-ce qui a déclenché cette alerte ?
- Comment ces alertes s'intègrent-elles à toutes vos autres alertes potentiellement spécifiques à un produit ?
- Accédez au tableau de bord Service Health pour votre projet ou votre organisation. Vous pouvez consulter les événements, les produits concernés et les lieux en un coup d'œil, et répondre aux questions suivantes :
- Quels sont les projets concernés ?
- Quels produits dont dépend votre projet sont concernés ?
- L'événement affecte-t-il des ressources spécifiques dans ces lieux ?
- Examinez les événements et comprenez leur portée, leur impact et leur pertinence pour votre projet.
- Identifiez un événement qui semble lié au problème que vous rencontrez.
- Vous trouverez les étapes de validation, les mesures d'atténuation (le cas échéant) et le délai de résolution prévu pour l'événement.
Personalized Service Health vous aide à examiner l'état actuel et l'impact des incidents affectant votre projet ou votre organisation, afin que vous puissiez les gérer et y répondre efficacement. Par exemple, vous pouvez définir efficacement les priorités en identifiant précisément l'incident le plus urgent.
Limiter, résoudre ou escalader l'incident
Voici quelques exemples de questions que vous pourriez poser à ce stade :
- Comment contourner l'incident ?
- Pouvez-vous le corriger directement ?
- Dois-je lancer un basculement maintenant ou attendre plus longtemps ?
- Qui devez-vous contacter pour résoudre le problème ?
Personalized Service Health vous aide à comprendre l'impact d'un incident sur vos projets et ressources, à connaître les solutions de contournement disponibles et à recevoir des informations sur le délai de résolution estimé.
Suivre la progression de la résolution des incidents
L'aperçu des événements dans le tableau de bord "Service Health" identifie les informations clés telles que les symptômes et les solutions de contournement, qui sont nécessaires pour l'atténuation, et indique quand l'état change. Ces informations vous permettent :
- Suivez un récapitulatif de l'impact potentiel à mesure que la situation évolue.
- Tenez-vous informé des dernières nouveautés et de la date prévue de la prochaine communication ou mise à jour.
- Afficher la date de publication d'un symptôme.
- Découvrez quand une solution de contournement est identifiée.
- Vérifiez quand l'état passe à Résolu.
Vous pouvez effectuer les actions suivantes pendant que vous surveillez la progression :
- Examinez les solutions de contournement, le cas échéant.
- Mettez en œuvre la réponse aux incidents appropriée pour votre projet ou votre organisation.
- Continuez à surveiller l'événement jusqu'à ce qu'il soit atténué ou résolu.
Quand contacter l'assistance ?
Google est informé des événements qui s'affichent dans le tableau de bord Service Health. Pour savoir ce que Google fait concernant un événement, sélectionnez-le pour afficher les détails.
Si un problème ne semble être représenté dans aucun des événements du tableau de bord, contactez l'assistance.
Utiliser Personalized Service Health avec d'autres sources d'informations sur les incidents
Quelle que soit la configuration de votre entreprise, utilisez Personalized Service Health comme signal supplémentaire lorsque vous évaluez l'impact des incidents. Assurez-vous de pouvoir examiner plusieurs sources d'informations sur les incidents afin de pouvoir décider des prochaines étapes en fonction des données et des preuves.
Voici quelques raisons d'utiliser plusieurs sources d'informations sur les incidents :
- Un produit Google Cloud peut être concerné par un incident dans un emplacement donné, mais vos projets ne sont pas forcément affectés, car ils se trouvent dans un autre emplacement.
- Si votre système de diffusion comporte deux répliques complètes dans des zones distinctes et qu'un produit Google Cloud critique d'une zone échoue, le service personnalisé sur l'état des services vous informera de cet échec. Toutefois, il est possible que vos utilisateurs ne soient pas réellement concernés et que vous n'ayez pas besoin de prendre des mesures immédiates.
- Si votre projet dépend de nombreux produits Google Cloud dans un même emplacement, Personalized Service Health ne pourra pas savoir :
- Si votre projet nécessite que tous les produits soient fonctionnels.
- Votre projet continuera de fonctionner en cas de défaillance d'un produit.
- Si l'ensemble de votre application est affecté si un ou plusieurs produits échouent.
- Il est également possible que Personalized Service Health soit dégradé ou qu'il échoue. Pour le vérifier, vous pouvez consulter son état.
Vous devrez interpréter les signaux de Personalized Service Health en fonction de votre configuration.