Well-Architected Framework: pilier "Excellence opérationnelle"

Last reviewed 2025-02-14 UTC

Le pilier de l'excellence opérationnelle du Google Cloud Well-Architected Framework fournit des recommandations pour exploiter efficacement les charges de travail sur Google Cloud. L'excellence opérationnelle dans le cloud consiste à concevoir, implémenter et gérer des solutions cloud qui offrent de la valeur, des performances, de la sécurité et de la fiabilité. Les recommandations de ce pilier vous aident à améliorer et à adapter en permanence les charges de travail pour répondre aux besoins dynamiques et en constante évolution du cloud.

Le pilier de l'excellence opérationnelle s'adresse aux audiences suivantes :

  • Responsables et dirigeants : un framework pour établir et maintenir l'excellence opérationnelle dans le cloud, et pour s'assurer que les investissements dans le cloud génèrent de la valeur et soutiennent les objectifs commerciaux.
  • Équipes des opérations cloud : conseils pour gérer les incidents et les problèmes, planifier la capacité, optimiser les performances et gérer les changements.
  • Ingénieurs en fiabilité des sites (SRE) : bonnes pratiques qui vous aident à atteindre des niveaux élevés de fiabilité des services, y compris la surveillance, la réponse aux incidents et l'automatisation.
  • Architectes et ingénieurs cloud : exigences opérationnelles et bonnes pratiques pour les phases de conception et d'implémentation, afin de s'assurer que les solutions sont conçues pour l'efficacité opérationnelle et l'évolutivité.
  • Équipes DevOps : conseils sur l'automatisation, les pipelines CI/CD et la gestion des modifications, pour vous aider à fournir des logiciels plus rapidement et de manière plus fiable.

Pour atteindre l'excellence opérationnelle, vous devez adopter l'automatisation, l'orchestration et les insights basés sur les données. L'automatisation permet d'éliminer les tâches laborieuses. Il simplifie également les tâches répétitives et établit des garde-fous autour d'elles. L'orchestration permet de coordonner des processus complexes. Les insights basés sur les données permettent de prendre des décisions fondées sur des preuves. En appliquant ces pratiques, vous pouvez optimiser les opérations cloud, réduire les coûts, améliorer la disponibilité des services et renforcer la sécurité.

L'excellence opérationnelle dans le cloud va au-delà de la maîtrise technique des opérations cloud. Cela implique un changement culturel qui encourage l'apprentissage et l'expérimentation continus. Les équipes doivent être en mesure d'innover, d'itérer et d'adopter un état d'esprit de croissance. Une culture d'excellence opérationnelle favorise un environnement collaboratif où les individus sont encouragés à partager des idées, à remettre en question les hypothèses et à stimuler l'amélioration.

Pour obtenir des principes et des recommandations d'excellence opérationnelle spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : excellence opérationnelle dans le framework Well-Architected.

Principes de base

Les recommandations du pilier "Excellence opérationnelle" du framework Well-Architected sont associées aux principes fondamentaux suivants :

  • Assurez la préparation opérationnelle et les performances à l'aide de CloudOps : assurez-vous que les solutions cloud répondent aux exigences opérationnelles et de performances en définissant des objectifs de niveau de service (SLO) et en effectuant une surveillance complète, des tests de performances et une planification de la capacité.
  • Gérer les incidents et les problèmes : minimisez l'impact des incidents cloud et évitez qu'ils ne se reproduisent grâce à une observabilité complète, des procédures claires de réponse aux incidents, des rétrospectives approfondies et des mesures préventives.
  • Gérez et optimisez les ressources cloud : optimisez et gérez les ressources cloud à l'aide de stratégies telles que le dimensionnement approprié et l'autoscaling, et en utilisant des outils efficaces de surveillance des coûts.
  • Automatisez et gérez les changements : automatisez les processus, simplifiez la gestion des changements et allégez la charge de travail manuel.
  • Améliorez et innovez en permanence : Concentrez-vous sur les améliorations continues et l'introduction de nouvelles solutions pour rester compétitif.

Contributeurs

Auteurs :

Autres contributeurs :

Assurer la préparation opérationnelle et les performances à l'aide de CloudOps

Ce principe du pilier "Excellence opérationnelle" du Google Cloud Well-Architected Framework vous aide à assurer la préparation opérationnelle et les performances de vos charges de travail cloud. Il met l'accent sur l'établissement d'attentes et d'engagements clairs concernant les performances des services, la mise en œuvre d'une surveillance et d'alertes robustes, la réalisation de tests de performances et la planification proactive des besoins en capacité.

Présentation des principes

Différentes organisations peuvent interpréter la disponibilité opérationnelle différemment. La préparation opérationnelle consiste à préparer votre organisation à exploiter correctement les charges de travail sur Google Cloud. La préparation à l'exploitation d'une charge de travail cloud complexe et multicouche nécessite une planification minutieuse pour la mise en service et les opérations day-2. Ces opérations sont souvent appelées CloudOps.

Domaines de préparation opérationnelle

La préparation opérationnelle comprend quatre domaines d'intérêt. Chaque domaine d'intérêt se compose d'un ensemble d'activités et de composants nécessaires pour se préparer à exploiter une application ou un environnement complexes dans Google Cloud. Le tableau suivant liste les composants et les activités de chaque domaine d'intérêt :

Domaine d'intérêt de la préparation opérationnelle Activités et composants
Main d'œuvre
  • Définir clairement les rôles et les responsabilités des équipes qui gèrent et exploitent les ressources cloud.
  • S'assurer que les membres de l'équipe possèdent les compétences appropriées.
  • Développer un programme de formation.
  • Établissez une structure d'équipe claire.
  • Embauchez les talents nécessaires.
Processus
  • Observabilité.
  • Gérer les interruptions de service
  • Diffusion dans le cloud.
  • Opérations cloud de base.
Outils Outils nécessaires pour prendre en charge les processus CloudOps.
Gouvernance
  • Niveaux de service et rapports.
  • Finances du cloud.
  • Modèle opérationnel du cloud.
  • Comités d'examen et de gouvernance de l'architecture.
  • Architecture et conformité du cloud.

Recommandations

Pour garantir l'état opérationnel et les performances à l'aide de CloudOps, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs domaines de préparation opérationnelle.

Définir des SLO et des SLA

L'une des principales responsabilités de l'équipe des opérations cloud consiste à définir des objectifs de niveau de service (SLO) et des contrats de niveau de service (SLA) pour toutes les charges de travail critiques. Cette recommandation concerne le domaine de gouvernance de la préparation opérationnelle.

Les SLO doivent être spécifiques, mesurables, réalisables, pertinents et limités dans le temps (SMART). Ils doivent également refléter le niveau de service et les performances que vous souhaitez atteindre.

  • Spécifique : le niveau de service et les performances requis sont clairement définis.
  • Mesurable : quantifiable et traçable.
  • Réalisable : atteignable dans les limites des capacités et des ressources de votre organisation.
  • Pertinent : aligné sur les objectifs et les priorités de l'entreprise.
  • Limité dans le temps : il dispose d'un délai défini pour la mesure et l'évaluation.

Par exemple, un SLO pour une application Web peut être "disponibilité de 99,9 %" ou "temps de réponse moyen inférieur à 200 ms". Ces SLO définissent clairement le niveau de service et les performances requis pour l'application Web. Ils peuvent être mesurés et suivis au fil du temps.

Les SLA définissent les engagements envers les clients concernant la disponibilité, les performances et l'assistance des services, y compris les pénalités ou les mesures correctives en cas de non-respect. Les SLA doivent inclure des informations spécifiques sur les services fournis, le niveau de service attendu, les responsabilités du fournisseur de services et du client, ainsi que les pénalités ou les recours en cas de non-respect. Les SLA servent d'accord contractuel entre les deux parties, garantissant que les deux ont une compréhension claire des attentes et des obligations associées au service cloud.

Google Cloud fournit des outils tels que Cloud Monitoring et des indicateurs de niveau de service (SLI) pour vous aider à définir et à suivre les SLO. Cloud Monitoring fournit des fonctionnalités complètes de surveillance et d'observabilité qui permettent à votre organisation de collecter et d'analyser les métriques liées à la disponibilité, aux performances et à la latence des applications et services basés sur le cloud. Les SLI sont des métriques spécifiques que vous pouvez utiliser pour mesurer et suivre les SLO au fil du temps. En utilisant ces outils, vous pouvez surveiller et gérer efficacement les services cloud, et vous assurer qu'ils respectent les SLO et les SLA.

Définir et communiquer clairement les SLO et les SLA pour tous vos services cloud critiques permet d'assurer la fiabilité et les performances de vos applications et services déployés.

Implémenter une observabilité complète

Pour obtenir une visibilité en temps réel sur l'état et les performances de votre environnement cloud, nous vous recommandons d'utiliser une combinaison d'outils Google Cloud Observability et de solutions tierces. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

L'implémentation d'une combinaison de solutions d'observabilité vous offre une stratégie d'observabilité complète qui couvre différents aspects de votre infrastructure et de vos applications cloud. Google Cloud Observability est une plate-forme unifiée permettant de collecter, d'analyser et de visualiser les métriques, les journaux et les traces de divers servicesGoogle Cloud , applications et sources externes. Cloud Monitoring vous permet d'obtenir des insights sur l'utilisation des ressources, les caractéristiques de performances et l'état général de vos ressources.

Pour assurer une surveillance complète, surveillez les métriques importantes qui correspondent aux indicateurs d'état du système, tels que l'utilisation du processeur, l'utilisation de la mémoire, le trafic réseau, les E/S disque et les temps de réponse des applications. Vous devez également tenir compte des métriques spécifiques à votre activité. En suivant ces métriques, vous pouvez identifier les goulots d'étranglement potentiels, les problèmes de performances et les contraintes liées aux ressources. Vous pouvez également configurer des alertes pour avertir de manière proactive les équipes concernées en cas d'anomalies ou de problèmes potentiels.

Pour améliorer encore vos capacités de surveillance, vous pouvez intégrer des solutions tierces à Google Cloud Observability. Ces solutions peuvent fournir des fonctionnalités supplémentaires, telles que des analyses avancées, la détection des anomalies basée sur le machine learning et des fonctionnalités de gestion des incidents. Cette combinaison d'outils Google Cloud Observability et de solutions tierces vous permet de créer un écosystème de surveillance robuste et personnalisable, adapté à vos besoins spécifiques. En utilisant cette approche combinée, vous pouvez identifier et résoudre les problèmes de manière proactive, optimiser l'utilisation des ressources, et assurer la fiabilité et la disponibilité globales de vos applications et services cloud.

Implémenter des tests de performances et de charge

Effectuer régulièrement des tests de performances vous permet de vous assurer que vos applications et votre infrastructure cloud peuvent gérer les pics de charge et maintenir des performances optimales. Les tests de charge simulent des schémas de trafic réalistes. Les tests de résistance poussent le système dans ses retranchements pour identifier les goulots d'étranglement et les limites de performances potentielles. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Des outils tels que Cloud Load Balancing et les services de test de charge peuvent vous aider à simuler des schémas de trafic réels et à tester la résistance de vos applications. Ces outils fournissent des informations précieuses sur le comportement de votre système dans différentes conditions de charge. Ils peuvent vous aider à identifier les domaines qui nécessitent une optimisation.

En fonction des résultats des tests de performances, vous pouvez prendre des décisions pour optimiser votre infrastructure et vos applications cloud afin d'obtenir des performances et une évolutivité optimales. Cette optimisation peut impliquer d'ajuster l'allocation des ressources, de modifier les configurations ou d'implémenter des mécanismes de mise en cache.

Par exemple, si vous constatez que votre application ralentit pendant les périodes de trafic élevé, vous devrez peut-être augmenter le nombre de machines virtuelles ou de conteneurs qui lui sont alloués. Vous devrez peut-être aussi ajuster la configuration de votre serveur Web ou de votre base de données pour améliorer les performances.

En effectuant régulièrement des tests de performances et en implémentant les optimisations nécessaires, vous pouvez vous assurer que vos applications et votre infrastructure basées dans le cloud fonctionnent toujours à leur plein potentiel, et offrent une expérience fluide et réactive à vos utilisateurs. Cela peut vous aider à conserver un avantage concurrentiel et à gagner la confiance de vos clients.

Planifier et gérer la capacité

La planification proactive des futurs besoins en capacité, qu'ils soient organiques ou non, vous aide à assurer le bon fonctionnement et l'évolutivité de vos systèmes basés sur le cloud. Cette recommandation concerne le domaine d'intérêt des processus de préparation opérationnelle.

La planification de la capacité future inclut la compréhension et la gestion des quotas pour diverses ressources telles que les instances de calcul, le stockage et les requêtes API. En analysant les modèles d'utilisation historiques, les prévisions de croissance et les exigences commerciales, vous pouvez anticiper avec précision les futurs besoins en capacité. Vous pouvez utiliser des outils tels que Cloud Monitoring et BigQuery pour collecter et analyser les données d'utilisation, identifier les tendances et prévoir la demande future.

Les modèles d'utilisation historiques fournissent des informations précieuses sur l'utilisation des ressources au fil du temps. En examinant des métriques telles que l'utilisation du processeur, de la mémoire et du trafic réseau, vous pouvez identifier les périodes de forte demande et les goulots d'étranglement potentiels. Vous pouvez également estimer les futurs besoins en capacité en effectuant des prévisions de croissance basées sur des facteurs tels que la croissance de la base d'utilisateurs, les nouveaux produits et fonctionnalités, et les campagnes marketing. Lorsque vous évaluez les besoins en capacité, vous devez également tenir compte des exigences commerciales telles que les SLA et les objectifs de performances.

Lorsque vous déterminez la taille des ressources pour une charge de travail, tenez compte des facteurs qui peuvent affecter l'utilisation des ressources. Les variations saisonnières, comme les périodes de shopping pour les fêtes ou les soldes de fin de trimestre, peuvent entraîner des pics de demande temporaires. Les événements planifiés, comme les lancements de produits ou les campagnes marketing, peuvent également augmenter considérablement le trafic. Pour vous assurer que votre système principal et votre système de reprise après sinistre peuvent gérer les pics de demande inattendus, planifiez une capacité permettant de prendre en charge le basculement progressif en cas de perturbations telles que des catastrophes naturelles et des cyberattaques.

L'autoscaling est une stratégie importante pour ajuster dynamiquement vos ressources cloud en fonction des fluctuations de la charge de travail. En utilisant des règles d'autoscaling, vous pouvez automatiquement mettre à l'échelle les instances de calcul, le stockage et d'autres ressources en fonction de l'évolution de la demande. Cela garantit des performances optimales pendant les périodes de pointe tout en minimisant les coûts lorsque l'utilisation des ressources est faible. Les algorithmes d'autoscaling utilisent des métriques telles que l'utilisation du processeur, de la mémoire et la profondeur de la file d'attente pour déterminer quand faire évoluer les ressources.

Surveiller et optimiser en continu

Pour gérer et optimiser les charges de travail cloud, vous devez établir un processus de surveillance et d'analyse continues des métriques de performances. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Pour établir un processus de surveillance et d'analyse continues, vous devez suivre, collecter et évaluer les données liées à différents aspects de votre environnement cloud. En utilisant ces données, vous pouvez identifier de manière proactive les points à améliorer, optimiser l'utilisation des ressources et vous assurer que votre infrastructure cloud répond constamment à vos attentes en termes de performances, voire les dépasse.

Un aspect important de la surveillance des performances consiste à examiner régulièrement les journaux et les traces. Les journaux fournissent des informations précieuses sur les événements, les erreurs et les avertissements du système. Les traces fournissent des informations détaillées sur le flux de requêtes dans votre application. En analysant les journaux et les traces, vous pouvez identifier les problèmes potentiels et leurs causes racines, et mieux comprendre le comportement de vos applications dans différentes conditions. Les métriques telles que le temps aller-retour entre les services peuvent vous aider à identifier et à comprendre les goulots d'étranglement dans vos charges de travail.

De plus, vous pouvez utiliser des techniques d'optimisation des performances pour améliorer considérablement les temps de réponse des applications et l'efficacité globale. Voici quelques exemples de techniques que vous pouvez utiliser :

  • Mise en cache : stockez les données fréquemment consultées en mémoire pour réduire le besoin de requêtes de base de données ou d'appels d'API répétés.
  • Optimisation de la base de données : utilisez des techniques telles que l'indexation et l'optimisation des requêtes pour améliorer les performances des opérations de base de données.
  • Profilage du code : identifiez les zones de votre code qui consomment trop de ressources ou qui entraînent des problèmes de performances.

En appliquant ces techniques, vous pouvez optimiser vos applications et vous assurer qu'elles s'exécutent efficacement dans le cloud.

Gérer les incidents et les problèmes

Ce principe du pilier "Excellence opérationnelle" du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à gérer les incidents et les problèmes liés à vos charges de travail cloud. Cela implique de mettre en place une surveillance et une observabilité complètes, d'établir des procédures claires de réponse aux incidents, de mener une analyse approfondie des causes premières et de mettre en œuvre des mesures préventives. De nombreux thèmes abordés dans ce principe sont traités en détail dans le pilier Fiabilité.

Présentation des principes

La gestion des incidents et des problèmes sont des éléments importants d'un environnement opérationnel fonctionnel. La manière dont vous traitez, classez et résolvez les incidents de différents niveaux de gravité peut avoir une incidence significative sur vos opérations. Vous devez également effectuer des ajustements de manière proactive et continue pour optimiser la fiabilité et les performances. Un processus efficace de gestion des incidents et des problèmes repose sur les éléments fondamentaux suivants :

  • Surveillance continue : identifiez et résolvez rapidement les problèmes.
  • Automatisation : rationalisez les tâches et améliorez l'efficacité.
  • Orchestration : coordonnez et gérez efficacement les ressources cloud.
  • Insights basés sur les données : optimisez vos opérations cloud et prenez des décisions éclairées.

Ces éléments vous aident à créer un environnement cloud résilient capable de faire face à un large éventail de défis et de perturbations. Ces éléments peuvent également contribuer à réduire le risque d'incidents et de temps d'arrêt coûteux, et vous aider à améliorer l'agilité et le succès de votre entreprise. Ces éléments fondamentaux sont répartis dans les quatre domaines clés de la préparation opérationnelle : personnel, processus, outillage et gouvernance.

Recommandations

Pour gérer efficacement les incidents et les problèmes, tenez compte des recommandations des sections suivantes. Chacune des recommandations de ce document concerne un ou plusieurs domaines d'intérêt de la préparation opérationnelle.

Définissez des procédures claires de réponse aux incidents.

Des rôles et des responsabilités clairs sont essentiels pour assurer une réponse efficace et coordonnée aux incidents. De plus, des protocoles de communication et des procédures d'escalade clairs permettent de s'assurer que les informations sont partagées rapidement et efficacement lors d'un incident. Cette recommandation concerne les domaines clés de la préparation opérationnelle suivants : personnel, processus et outils.

Pour établir des procédures de réponse aux incidents, vous devez définir les rôles et les attentes de chaque membre de l'équipe, tels que les responsables des incidents, les enquêteurs, les responsables de la communication et les experts techniques. L'établissement de canaux de communication et d'escalade inclut l'identification des contacts importants, la configuration des canaux de communication et la définition du processus d'escalade des incidents aux niveaux de gestion supérieurs, le cas échéant. Des formations et une préparation régulières permettent de s'assurer que les équipes disposent des connaissances et des compétences nécessaires pour répondre efficacement aux incidents.

En documentant les procédures de réponse aux incidents dans un runbook ou un playbook, vous pouvez fournir un guide de référence standardisé que les équipes pourront suivre en cas d'incident. Le runbook doit décrire les étapes à suivre à chaque phase du processus de réponse aux incidents, y compris la communication, le tri, l'investigation et la résolution. Il doit également inclure des informations sur les outils et ressources pertinents, ainsi que les coordonnées du personnel important. Vous devez examiner et mettre à jour régulièrement le runbook pour vous assurer qu'il reste à jour et efficace.

Centraliser la gestion des incidents

Pour un suivi et une gestion efficaces tout au long du cycle de vie des incidents, envisagez d'utiliser un système de gestion des incidents centralisé. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Un système de gestion des incidents centralisé offre les avantages suivants :

  • Visibilité améliorée : en regroupant toutes les données liées aux incidents dans un seul endroit, vous évitez aux équipes d'avoir à rechercher le contexte dans différents canaux ou systèmes. Cette approche permet de gagner du temps et de réduire la confusion. Elle offre aux parties prenantes une vue complète de l'incident, y compris son état, son impact et sa progression.
  • Amélioration de la coordination et de la collaboration : un système centralisé fournit une plate-forme unifiée pour la communication et la gestion des tâches. Il favorise une collaboration fluide entre les différents services et fonctions impliqués dans la gestion des incidents. Cette approche permet de s'assurer que tout le monde a accès à des informations à jour et réduit le risque de mauvaise communication et de désalignement.
  • Responsabilité et propriété renforcées : un système centralisé de gestion des incidents permet à votre organisation d'attribuer des tâches à des personnes ou des équipes spécifiques, et de s'assurer que les responsabilités sont clairement définies et suivies. Cette approche favorise la responsabilisation et encourage la résolution proactive des problèmes, car les membres de l'équipe peuvent facilement suivre leurs progrès et leurs contributions.

Un système de gestion des incidents centralisé doit offrir des fonctionnalités robustes pour le suivi des incidents, l'attribution des tâches et la gestion de la communication. Ces fonctionnalités vous permettent de personnaliser les workflows, de définir des priorités et de les intégrer à d'autres systèmes, tels que les outils de surveillance et les systèmes de gestion des tickets.

En mettant en place un système centralisé de gestion des incidents, vous pouvez optimiser les processus de réponse aux incidents de votre organisation, améliorer la collaboration et accroître la visibilité. Cela permet de résoudre les incidents plus rapidement, de réduire les temps d'arrêt et d'améliorer la satisfaction client. Il contribue également à favoriser une culture d'amélioration continue, car vous pouvez tirer des enseignements des incidents passés et identifier les points à améliorer.

Effectuer des examens post-incident approfondis

Après un incident, vous devez effectuer un examen post-incident (EPI) détaillé, également appelé post-mortem, pour identifier la cause racine, les facteurs contributifs et les enseignements tirés. Cet examen approfondi vous aide à éviter des incidents similaires à l'avenir. Cette recommandation concerne les domaines de préparation opérationnelle suivants : processus et gouvernance.

Le processus PIR doit impliquer une équipe pluridisciplinaire possédant une expertise dans différents aspects de l'incident. L'équipe doit recueillir toutes les informations pertinentes par le biais d'entretiens, d'examens de documents et d'inspections de sites. Une chronologie des événements doit être créée pour établir la séquence d'actions qui ont conduit à l'incident.

Une fois que l'équipe a recueilli les informations requises, elle doit effectuer une analyse des causes racines pour déterminer les facteurs qui ont conduit à l'incident. Cette analyse doit identifier à la fois la cause immédiate et les problèmes systémiques qui ont contribué à l'incident.

En plus d'identifier la cause première, l'équipe chargée de l'examen post-incident doit identifier tous les autres facteurs contributifs qui ont pu provoquer l'incident. Ces facteurs peuvent inclure des erreurs humaines, des défaillances d'équipement ou des facteurs organisationnels tels que des problèmes de communication et un manque de formation.

Le rapport PIR doit documenter les conclusions de l'enquête, y compris la chronologie des événements, l'analyse des causes premières et les actions recommandées. Ce rapport est une ressource précieuse pour mettre en œuvre des actions correctives et éviter que le problème ne se reproduise. Le rapport doit être partagé avec toutes les parties prenantes concernées et utilisé pour élaborer des procédures et des formations sur la sécurité.

Pour que le processus d'examen post-incident soit efficace, votre organisation doit favoriser une culture qui ne cherche pas à désigner des coupables, mais qui se concentre plutôt sur l'apprentissage et l'amélioration. Cette culture encourage les personnes à signaler les incidents sans crainte de représailles. Elle vous permet de résoudre les problèmes systémiques et d'apporter des améliorations significatives.

En menant des examens post-incident approfondis et en mettant en œuvre des mesures correctives basées sur les conclusions, vous pouvez réduire considérablement le risque d'incidents similaires à l'avenir. Cette approche proactive de l'étude et de la prévention des incidents contribue à créer un environnement de travail plus sûr et plus efficace pour toutes les personnes concernées.

Gérer une base de connaissances

Une base de connaissances sur les problèmes connus, les solutions et les guides de dépannage est essentielle pour la gestion et la résolution des incidents. Les membres de l'équipe peuvent utiliser la base de connaissances pour identifier et résoudre rapidement les problèmes courants. L'implémentation d'une base de connaissances permet de réduire la nécessité d'escalade et d'améliorer l'efficacité globale. Cette recommandation concerne les domaines d'intérêt de l'aptitude opérationnelle suivants : personnel et processus.

L'un des principaux avantages d'une base de connaissances est qu'elle permet aux équipes de tirer des leçons de leurs expériences passées et d'éviter de répéter les mêmes erreurs. En capturant et en partageant les solutions aux problèmes connus, les équipes peuvent développer une compréhension collective de la manière de résoudre les problèmes courants et des bonnes pratiques de gestion des incidents. L'utilisation d'une base de connaissances permet de gagner du temps et de l'énergie, et contribue à standardiser les processus et à assurer la cohérence de la résolution des incidents.

En plus de contribuer à réduire les délais de résolution des incidents, une base de connaissances favorise le partage des connaissances et la collaboration entre les équipes. Grâce à un dépôt central d'informations, les équipes peuvent facilement accéder à la base de connaissances et y contribuer, ce qui favorise une culture d'apprentissage et d'amélioration continus. Cette culture encourage les équipes à partager leur expertise et leurs expériences, ce qui permet de créer une base de connaissances plus complète et plus utile.

Pour créer et gérer efficacement une base de connaissances, utilisez les outils et technologies appropriés. Les plates-formes de collaboration comme Google Workspace sont idéales pour cela, car elles vous permettent de créer, de modifier et de partager facilement des documents de manière collaborative. Ces outils sont également compatibles avec le contrôle des versions et le suivi des modifications, ce qui permet de s'assurer que la base de connaissances reste à jour et précise.

Rendez la base de connaissances facilement accessible à toutes les équipes concernées. Pour ce faire, vous pouvez intégrer la base de connaissances aux systèmes de gestion des incidents existants ou fournir un portail ou un site intranet dédié. Une base de connaissances facilement accessible permet aux équipes d'accéder rapidement aux informations dont elles ont besoin pour résoudre efficacement les incidents. Cette disponibilité permet de réduire les temps d'arrêt et de minimiser l'impact sur les opérations commerciales.

Examinez et mettez à jour régulièrement la base de connaissances pour vous assurer qu'elle reste pertinente et utile. Surveillez les rapports d'incidents, identifiez les problèmes et les tendances courants, et intégrez de nouvelles solutions et de nouveaux guides de dépannage à la base de connaissances. Une base de connaissances à jour aide vos équipes à résoudre les incidents plus rapidement et plus efficacement.

Automatiser la réponse aux incidents

L'automatisation permet de rationaliser vos processus de réponse aux incidents et de résolution. Vous pouvez ainsi traiter les failles de sécurité et les défaillances du système rapidement et efficacement. En utilisant des produits Google Cloud tels que Cloud Run Functions ou Cloud Run, vous pouvez automatiser diverses tâches qui sont généralement manuelles et chronophages. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

La réponse automatisée aux incidents présente les avantages suivants :

  • Réduction des délais de détection et de résolution des incidents : les outils automatisés peuvent surveiller en continu les systèmes et les applications, détecter les activités suspectes ou anormales en temps réel, et avertir les parties prenantes ou répondre sans intervention. Cette automatisation vous permet d'identifier les menaces ou problèmes potentiels avant qu'ils ne deviennent des incidents majeurs. Lorsqu'un incident est détecté, des outils automatisés peuvent déclencher des actions de correction prédéfinies, telles que l'isolement des systèmes concernés, la mise en quarantaine des fichiers malveillants ou la restauration des modifications pour rétablir un état correct connu du système.
  • Charge de travail réduite pour les équipes chargées de la sécurité et des opérations : la réponse automatisée aux incidents permet aux équipes chargées de la sécurité et des opérations de se concentrer sur des tâches plus stratégiques. En automatisant les tâches de routine et répétitives, comme la collecte d'informations de diagnostic ou le déclenchement d'alertes, votre organisation peut libérer du personnel pour gérer les incidents plus complexes et critiques. Cette automatisation peut améliorer l'efficacité et l'efficience globales de la réponse aux incidents.
  • Cohérence et précision accrues du processus de correction : les outils automatisés peuvent garantir que les actions de correction sont appliquées de manière uniforme à tous les systèmes concernés, ce qui minimise le risque d'erreur humaine ou d'incohérence. Cette standardisation du processus de résolution permet de minimiser l'impact des incidents sur les utilisateurs et l'entreprise.

Gérer et optimiser les ressources cloud

Ce principe du pilier "Excellence opérationnelle" du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à gérer et à optimiser les ressources utilisées par vos charges de travail cloud. Cela implique de dimensionner les ressources de manière appropriée en fonction de l'utilisation réelle et de la demande, d'utiliser l'autoscaling pour l'allocation dynamique des ressources, de mettre en œuvre des stratégies d'optimisation des coûts et d'examiner régulièrement l'utilisation et les coûts des ressources. De nombreux sujets abordés dans ce principe sont traités en détail dans le pilier Optimisation des coûts.

Présentation des principes

La gestion et l'optimisation des ressources cloud jouent un rôle essentiel dans l'optimisation des dépenses cloud, de l'utilisation des ressources et de l'efficacité de l'infrastructure. Elle inclut diverses stratégies et bonnes pratiques visant à maximiser la valeur et le retour sur investissement de vos dépenses cloud.

L'accent mis sur l'optimisation dans ce pilier va au-delà de la réduction des coûts. Il met l'accent sur les objectifs suivants :

  • Efficacité : utilisation de l'automatisation et de l'analyse des données pour atteindre des performances optimales et réaliser des économies.
  • Performances : mise à l'échelle des ressources sans effort pour répondre aux fluctuations de la demande et fournir des résultats optimaux.
  • Évolutivité : adaptation de l'infrastructure et des processus pour faire face à une croissance rapide et à des charges de travail variées.

En vous concentrant sur ces objectifs, vous trouverez un équilibre entre coût et fonctionnalité. Vous pouvez prendre des décisions éclairées concernant le provisionnement, le scaling et la migration des ressources. De plus, vous obtenez des insights précieux sur les modèles de consommation des ressources, ce qui vous permet d'identifier et de résoudre de manière proactive les problèmes potentiels avant qu'ils ne s'aggravent.

Recommandations

Pour gérer et optimiser les ressources, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs domaines d'intérêt de la préparation opérationnelle.

Dimensionner correctement les ressources

Pour gérer efficacement les ressources cloud, il est essentiel de surveiller en permanence leur utilisation et d'ajuster leur allocation en fonction de la demande réelle. Le surprovisionnement des ressources peut entraîner des coûts inutiles, tandis que le sous-provisionnement peut provoquer des goulots d'étranglement qui affectent les performances de l'application et l'expérience utilisateur. Pour atteindre un équilibre optimal, vous devez adopter une approche proactive pour dimensionner correctement les ressources cloud. Cette recommandation concerne le domaine de gouvernance de la préparation opérationnelle.

Cloud Monitoring et Recommender peuvent vous aider à identifier les opportunités de redimensionnement. Cloud Monitoring offre une visibilité en temps réel sur les métriques d'utilisation des ressources. Cette visibilité vous permet de suivre les modèles d'utilisation des ressources et d'identifier les inefficacités potentielles. Recommender analyse les données d'utilisation des ressources pour formuler des recommandations intelligentes visant à optimiser l'allocation des ressources. Grâce à ces outils, vous pouvez obtenir des informations sur l'utilisation des ressources et prendre des décisions éclairées concernant leur dimensionnement.

En plus de Cloud Monitoring et de Recommender, pensez à utiliser des métriques personnalisées pour déclencher des actions de redimensionnement automatique. Les métriques personnalisées vous permettent de suivre des métriques d'utilisation des ressources spécifiques qui sont pertinentes pour vos applications et charges de travail. Vous pouvez également configurer des alertes pour avertir les administrateurs lorsque des seuils prédéfinis sont atteints. Les administrateurs peuvent ensuite prendre les mesures nécessaires pour ajuster l'allocation des ressources. Cette approche proactive garantit que les ressources sont mises à l'échelle en temps voulu, ce qui permet d'optimiser les coûts cloud et d'éviter les problèmes de performances.

Utiliser l'autoscaling

L'autoscaling des ressources de calcul et autres ressources permet d'assurer des performances et une rentabilité optimales pour vos applications cloud. L'autoscaling vous permet d'ajuster dynamiquement la capacité de vos ressources en fonction des fluctuations de la charge de travail. Vous disposez ainsi des ressources dont vous avez besoin au moment où vous en avez besoin, ce qui vous permet d'éviter le surprovisionnement et les coûts inutiles. Cette recommandation concerne le domaine d'intérêt des processus de préparation opérationnelle.

Pour répondre aux besoins variés des différentes applications et charges de travail,Google Cloud propose différentes options d'autoscaling, y compris les suivantes :

  • Les groupes d'instances gérés (MIG) Compute Engine sont des groupes de VM gérés et mis à l'échelle comme une seule entité. Avec les MIG, vous pouvez définir des règles d'autoscaling qui spécifient le nombre minimal et le nombre maximal de VM à maintenir dans le groupe, ainsi que les conditions qui déclenchent l'autoscaling. Par exemple, vous pouvez configurer une règle pour ajouter des VM dans un MIG lorsque l'utilisation du processeur atteint un certain seuil et pour supprimer des VM lorsque l'utilisation tombe en dessous d'un autre seuil.
  • L'autoscaling Google Kubernetes Engine (GKE) ajuste dynamiquement les ressources de votre cluster en fonction des besoins de votre application. Il propose les outils suivants :

    • L'autoscaler de cluster ajoute ou supprime des nœuds en fonction des demandes de ressources des pods.
    • L'autoscaler horizontal de pods modifie le nombre de répliques de pods en fonction des métriques personnalisées, ou de celles concernant le processeur ou la mémoire.
    • L'autoscaler de pods vertical ajuste précisément les demandes et les limites de ressources des pods en fonction des schémas d'utilisation.
    • Le provisionnement automatique des nœuds crée automatiquement des pools de nœuds optimisés pour vos charges de travail.

    Ces outils fonctionnent ensemble pour optimiser l'utilisation des ressources, assurer les performances des applications et simplifier la gestion des clusters.

  • Cloud Run est une plate-forme sans serveur qui vous permet d'exécuter du code sans avoir à gérer d'infrastructure. Cloud Run propose un autoscaling intégré, qui ajuste automatiquement le nombre d'instances en fonction du trafic entrant. Lorsque le volume de trafic augmente, Cloud Run augmente le nombre d'instances pour gérer la charge. Lorsque le trafic diminue, Cloud Run réduit le nombre d'instances pour réduire les coûts.

En utilisant ces options d'autoscaling, vous pouvez vous assurer que vos applications dans le cloud disposent des ressources nécessaires pour gérer des charges de travail variables, tout en évitant le surprovisionnement et les coûts inutiles. L'autoscaling peut améliorer les performances, réduire les coûts et permettre une utilisation plus efficace des ressources cloud.

Exploiter les stratégies d'optimisation des coûts

L'optimisation des dépenses cloud vous aide à gérer efficacement les budgets informatiques de votre organisation. Cette recommandation concerne le domaine de gouvernance de la préparation opérationnelle.

Google Cloud propose plusieurs outils et techniques pour vous aider à optimiser les coûts cloud. En utilisant ces outils et techniques, vous pouvez tirer le meilleur parti de vos dépenses cloud. Ces outils et techniques vous aident à identifier les domaines dans lesquels les coûts peuvent être réduits, par exemple en identifiant les ressources sous-utilisées ou en recommandant des types d'instances plus rentables. Google Cloud Voici quelques options pour vous aider à optimiser les coûts cloud :

Les modèles de tarification peuvent changer au fil du temps, et de nouvelles fonctionnalités peuvent être introduites pour offrir de meilleures performances ou des coûts plus bas par rapport aux options existantes. Par conséquent, vous devez examiner régulièrement les modèles de tarification et envisager d'utiliser d'autres fonctionnalités. En vous tenant informé des derniers modèles de tarification et des dernières fonctionnalités, vous pouvez prendre des décisions éclairées concernant votre architecture cloud afin de minimiser les coûts.

Les outils de gestion des coûts deGoogle Cloud, tels que les budgets et les alertes, fournissent des informations précieuses sur les dépenses cloud. Les budgets et les alertes permettent aux utilisateurs de définir des budgets et de recevoir des alertes lorsque ces budgets sont dépassés. Ces outils aident les utilisateurs à suivre leurs dépenses cloud et à identifier les domaines où les coûts peuvent être réduits.

Suivre l'utilisation et les coûts des ressources

Vous pouvez utiliser le taggage et l'étiquetage pour suivre l'utilisation et les coûts des ressources. En attribuant des tags et des libellés à vos ressources cloud (projets, services, etc.), vous pouvez les catégoriser et les organiser. Cela vous permet de surveiller et d'analyser les habitudes de dépenses pour des ressources spécifiques, et d'identifier les domaines de forte utilisation ou les économies potentielles. Cette recommandation concerne les domaines de préparation opérationnelle suivants : gouvernance et outils.

Des outils tels que Cloud Billing et la gestion des coûts vous aident à comprendre en détail vos habitudes de dépenses. Ces outils fournissent des informations détaillées sur votre utilisation du cloud. Ils vous permettent d'identifier les tendances, de prévoir les coûts et de prendre des décisions éclairées. En analysant les données historiques et les habitudes de dépenses actuelles, vous pouvez identifier les domaines sur lesquels concentrer vos efforts d'optimisation des coûts.

Les tableaux de bord et rapports personnalisés vous aident à visualiser les données de coût et à obtenir des insights plus approfondis sur les tendances de dépenses. En personnalisant les tableaux de bord avec des métriques et des dimensions pertinentes, vous pouvez surveiller les indicateurs clés de performance (KPI) et suivre vos progrès vers vos objectifs d'optimisation des coûts. Les rapports offrent des analyses plus approfondies des données de coûts. Les rapports vous permettent de filtrer les données par périodes spécifiques ou types de ressources pour comprendre les facteurs sous-jacents qui contribuent à vos dépenses cloud.

Examinez et mettez à jour régulièrement vos tags, libellés et outils d'analyse des coûts pour vous assurer de disposer des informations les plus récentes sur votre utilisation et vos coûts du cloud. En vous tenant informé et en effectuant des post-mortems ou des examens proactifs des coûts, vous pouvez identifier rapidement toute augmentation inattendue des dépenses. Vous pouvez ainsi prendre des décisions proactives pour optimiser les ressources cloud et contrôler les coûts.

Établir la répartition des coûts et le budget

La responsabilité et la transparence dans la gestion des coûts liés au cloud sont essentielles pour optimiser l'utilisation des ressources et assurer le contrôle financier. Cette recommandation concerne le domaine de gouvernance de la préparation opérationnelle.

Pour garantir la responsabilité et la transparence, vous devez disposer de mécanismes clairs pour l'allocation des coûts et le rejet de débit. En attribuant les coûts à des équipes, des projets ou des personnes spécifiques, votre organisation peut s'assurer que chacune de ces entités est responsable de son utilisation du cloud. Cette pratique favorise le sentiment d'appropriation et encourage une gestion responsable des ressources. De plus, les mécanismes de refacturation permettent à votre organisation de récupérer les coûts cloud auprès des clients internes, d'aligner les incitations sur les performances et de promouvoir la discipline budgétaire.

L'établissement de budgets pour différentes équipes ou différents projets est un autre aspect essentiel de la gestion des coûts cloud. Les budgets permettent à votre organisation de définir des limites de dépenses et de suivre les dépenses réelles par rapport à ces limites. Cette approche vous permet de prendre des décisions proactives pour éviter les dépenses incontrôlées. En définissant des budgets réalistes et réalisables, vous pouvez vous assurer que les ressources cloud sont utilisées efficacement et en accord avec les objectifs commerciaux. La surveillance régulière des dépenses réelles par rapport aux budgets vous aide à identifier les écarts et à résoudre rapidement les éventuels dépassements.

Pour surveiller les budgets, vous pouvez utiliser des outils tels que les budgets et les alertes Cloud Billing. Ces outils fournissent des informations en temps réel sur les dépenses cloud et avertissent les parties prenantes en cas de dépassement potentiel. Grâce à ces fonctionnalités, vous pouvez suivre les coûts cloud et prendre des mesures correctives avant que des écarts importants ne se produisent. Cette approche proactive permet d'éviter les surprises financières et garantit une utilisation responsable des ressources cloud.

Automatiser et gérer les modifications

Ce principe du pilier "Excellence opérationnelle" du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à automatiser et à gérer les modifications apportées à vos charges de travail cloud. Il s'agit d'implémenter l'infrastructure en tant que code (IaC), d'établir des procédures opérationnelles standards, d'implémenter un processus structuré de gestion des changements et d'utiliser l'automatisation et l'orchestration.

Présentation des principes

La gestion des modifications et l'automatisation jouent un rôle essentiel pour assurer des transitions fluides et contrôlées dans les environnements cloud. Pour gérer efficacement les changements, vous devez utiliser des stratégies et des bonnes pratiques qui minimisent les perturbations et veillent à ce que les changements soient intégrés de manière fluide aux systèmes existants.

Une gestion et une automatisation efficaces des changements incluent les éléments fondamentaux suivants :

  • Gouvernance du changement : définissez des règles et des procédures claires pour la gestion du changement, y compris les processus d'approbation et les plans de communication.
  • Évaluation des risques : identifiez les risques potentiels associés aux modifications et atténuez-les à l'aide de techniques de gestion des risques.
  • Tests et validation : testez minutieusement les modifications pour vous assurer qu'elles répondent aux exigences fonctionnelles et de performances, et pour atténuer les régressions potentielles.
  • Déploiement contrôlé : implémentez les modifications de manière contrôlée, en veillant à ce que les utilisateurs soient transférés de manière fluide vers le nouvel environnement, avec des mécanismes de restauration fluide si nécessaire.

Ces éléments fondamentaux permettent de minimiser l'impact des changements et de s'assurer qu'ils ont un effet positif sur les opérations commerciales. Ces éléments sont représentés par les domaines d'intérêt de la préparation opérationnelle (processus, outils et gouvernance).

Recommandations

Pour automatiser et gérer les modifications, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs domaines de préparation opérationnelle.

Adopter l'IaC

L'Infrastructure as Code (IaC) est une approche transformatrice pour gérer l'infrastructure cloud. Vous pouvez définir et gérer l'infrastructure cloud de manière déclarative à l'aide d'outils tels que Terraform. L'IaC vous aide à obtenir de la cohérence, de la reproductibilité et une gestion simplifiée des modifications. Il permet également des déploiements plus rapides et plus fiables. Cette recommandation concerne les domaines de préparation opérationnelle suivants : processus et outils.

Voici les principaux avantages de l'adoption de l'approche IaC pour vos déploiements cloud :

  • Configurations de ressources lisibles par l'homme : avec l'approche IaC, vous pouvez déclarer vos ressources d'infrastructure cloud dans un format lisible par l'homme, comme JSON ou YAML. Les administrateurs et opérateurs d'infrastructure peuvent facilement comprendre et modifier l'infrastructure, et collaborer avec d'autres personnes.
  • Cohérence et reproductibilité : l'IaC permet d'assurer la cohérence et la reproductibilité de vos déploiements d'infrastructure. Vous pouvez vous assurer que votre infrastructure est provisionnée et configurée de la même manière à chaque fois, quel que soit l'utilisateur qui effectue le déploiement. Cette approche permet de réduire les erreurs et de s'assurer que votre infrastructure est toujours dans un état connu.
  • Responsabilité et dépannage simplifié : l'approche IaC permet d'améliorer la responsabilité et de faciliter le dépannage des problèmes. En stockant votre code IaC dans un système de contrôle des versions, vous pouvez suivre les modifications, et identifier quand et par qui elles ont été apportées. Si nécessaire, vous pouvez facilement revenir à des versions précédentes.

Mettre en œuvre le contrôle des versions

Un système de contrôle des versions tel que Git est un élément clé du processus IaC. Il offre de solides capacités de gestion des changements et d'atténuation des risques, ce qui explique pourquoi il est largement adopté, que ce soit par le biais d'un développement interne ou de solutions SaaS. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : gouvernance et outils.

En suivant les modifications apportées au code et aux configurations IaC, le contrôle des versions offre une visibilité sur l'évolution du code, ce qui permet de mieux comprendre l'impact des modifications et d'identifier les problèmes potentiels. Cette visibilité accrue favorise la collaboration entre les membres de l'équipe qui travaillent sur le même projet IaC.

La plupart des systèmes de contrôle des versions vous permettent d'annuler facilement les modifications si nécessaire. Cette fonctionnalité permet de réduire le risque de conséquences ou d'erreurs indésirables. En utilisant des outils tels que Git dans votre workflow IaC, vous pouvez améliorer considérablement les processus de gestion des modifications, favoriser la collaboration et atténuer les risques, ce qui conduit à une implémentation IaC plus efficace et fiable.

Créer des pipelines CI/CD

Les pipelines d'intégration et de livraison continues (CI/CD) simplifient le processus de développement et de déploiement des applications cloud. Les pipelines CI/CD automatisent les étapes de compilation, de test et de déploiement, ce qui permet de publier des versions plus rapidement et plus fréquemment, tout en améliorant le contrôle qualité. Cette recommandation concerne le domaine d'intérêt des outils pour la préparation opérationnelle.

Les pipelines CI/CD garantissent que les modifications de code sont intégrées en continu dans un dépôt central, généralement un système de contrôle des versions tel que Git. L'intégration continue facilite la détection et la résolution précoces des problèmes, et réduit la probabilité de bugs ou de problèmes de compatibilité.

Pour créer et gérer des pipelines CI/CD pour les applications cloud, vous pouvez utiliser des outils tels que Cloud Build et Cloud Deploy.

  • Cloud Build est un service de compilation entièrement géré qui permet aux développeurs de définir et d'exécuter des étapes de compilation de manière déclarative. Elle s'intègre parfaitement aux plates-formes de gestion de code source populaires et peut être déclenchée par des événements tels que les envois et les requêtes d'extraction de code.
  • Cloud Deploy est un service de déploiement sans serveur qui automatise le processus de déploiement d'applications dans différents environnements, tels que les environnements de test, de préproduction et de production. Il fournit des fonctionnalités telles que les déploiements bleu-vert, la répartition du trafic et les capacités de restauration, ce qui facilite la gestion et la surveillance des déploiements d'applications.

L'intégration de pipelines CI/CD aux systèmes de gestion des versions et aux frameworks de test permet de garantir la qualité et la fiabilité de vos applications cloud. En exécutant des tests automatisés dans le cadre du processus CI/CD, les équipes de développement peuvent identifier et résoudre rapidement les problèmes avant que le code ne soit déployé dans l'environnement de production. Cette intégration permet d'améliorer la stabilité et les performances globales de vos applications cloud.

Utiliser des outils de gestion de la configuration

Des outils tels que Puppet, Chef, Ansible et VM Manager vous aident à automatiser la configuration et la gestion des ressources cloud. Ces outils vous permettent d'assurer la cohérence et la conformité des ressources dans vos environnements cloud. Cette recommandation concerne le domaine d'intérêt des outils pour la préparation opérationnelle.

L'automatisation de la configuration et de la gestion des ressources cloud présente les avantages suivants :

  • Réduction significative du risque d'erreurs manuelles : lorsque des processus manuels sont impliqués, le risque d'erreurs dues à des erreurs humaines est plus élevé. Les outils de gestion de la configuration réduisent ce risque en automatisant les processus, de sorte que les configurations sont appliquées de manière cohérente et précise à toutes les ressources cloud. Cette automatisation peut améliorer la fiabilité et la stabilité de l'environnement cloud.
  • Amélioration de l'efficacité opérationnelle : en automatisant les tâches répétitives, votre organisation peut libérer du temps pour son personnel informatique et lui permettre de se concentrer sur des initiatives plus stratégiques. Cette automatisation peut entraîner une augmentation de la productivité et des économies, ainsi qu'une meilleure réactivité face à l'évolution des besoins de l'entreprise.
  • Gestion simplifiée des infrastructures cloud complexes : à mesure que les environnements cloud gagnent en taille et en complexité, la gestion des ressources peut devenir de plus en plus difficile. Les outils de gestion de la configuration fournissent une plate-forme centralisée pour gérer les ressources cloud. Ces outils facilitent le suivi des configurations, l'identification des problèmes et l'implémentation des modifications. L'utilisation de ces outils peut améliorer la visibilité, le contrôle et la sécurité de votre environnement cloud.

Automatiser les tests

L'intégration de tests automatisés à vos pipelines CI/CD permet de garantir la qualité et la fiabilité de vos applications cloud. En validant les modifications avant le déploiement, vous pouvez réduire considérablement le risque d'erreurs et de régressions, ce qui permet d'obtenir un système logiciel plus stable et robuste. Cette recommandation concerne les domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Voici les principaux avantages de l'intégration de tests automatisés dans vos pipelines CI/CD :

  • Détection précoce des bugs et des défauts : les tests automatisés permettent de détecter les bugs et les défauts dès le début du processus de développement, avant qu'ils ne causent des problèmes majeurs en production. Cette fonctionnalité permet de gagner du temps et des ressources en évitant les coûteuses retouches et corrections de bugs lors des étapes ultérieures du processus de développement.
  • Code de haute qualité et basé sur des normes : les tests automatisés peuvent contribuer à améliorer la qualité globale de votre code en s'assurant qu'il respecte certaines normes et bonnes pratiques. Cette fonctionnalité permet de créer des applications plus fiables et plus faciles à gérer, et moins sujettes aux erreurs.

Vous pouvez utiliser différents types de techniques de test dans les pipelines CI/CD. Chaque type de test a un objectif spécifique.

  • Les tests unitaires se concentrent sur le test d'unités de code individuelles, telles que des fonctions ou des méthodes, pour s'assurer qu'elles fonctionnent comme prévu.
  • Les tests d'intégration testent les interactions entre les différents composants ou modules de votre application pour vérifier qu'ils fonctionnent correctement ensemble.
  • Les tests de bout en bout sont souvent utilisés en complément des tests unitaires et d'intégration. Les tests de bout en bout simulent des scénarios réels pour tester l'application dans son ensemble et s'assurer qu'elle répond aux exigences de vos utilisateurs finaux.

Pour intégrer efficacement les tests automatisés à vos pipelines CI/CD, vous devez choisir les outils et frameworks de test appropriés. Il existe de nombreuses options différentes, chacune présentant ses propres avantages et inconvénients. Vous devez également établir une stratégie de test claire qui décrit les types de tests à effectuer, leur fréquence et les critères de réussite ou d'échec. En suivant ces recommandations, vous pouvez vous assurer que votre processus de test automatisé est efficace. Ce processus fournit des informations précieuses sur la qualité et la fiabilité de vos applications cloud.

Améliorer et innover en permanence

Ce principe du pilier "Excellence opérationnelle" du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à optimiser en continu les opérations cloud et à stimuler l'innovation.

Présentation des principes

Pour améliorer et innover en permanence dans le cloud, vous devez vous concentrer sur l'apprentissage, l'expérimentation et l'adaptation continus. Cela vous aide à explorer de nouvelles technologies et à optimiser les processus existants. Cela favorise également une culture de l'excellence qui permet à votre organisation d'atteindre et de conserver un leadership dans le secteur.

En améliorant et en innovant en continu, vous pouvez atteindre les objectifs suivants :

  • Accélérer l'innovation : explorez de nouvelles technologies et de nouveaux services pour améliorer vos capacités et vous différencier.
  • Réduisez les coûts : identifiez et éliminez les inefficacités grâce à des initiatives d'amélioration des processus.
  • Améliorer l'agilité : s'adapter rapidement à l'évolution des exigences du marché et des besoins des clients
  • Améliorez la prise de décision : obtenez des insights précieux à partir des données et des analyses pour prendre des décisions basées sur les données.

Les entreprises qui adoptent le principe d'amélioration et d'innovation continues peuvent exploiter pleinement le potentiel de l'environnement cloud et atteindre une croissance durable. Ce principe correspond principalement au domaine d'intérêt de l'état de préparation opérationnelle de la catégorie "Personnel". Une culture de l'innovation permet aux équipes d'expérimenter de nouveaux outils et technologies pour étendre les capacités et réduire les coûts.

Recommandations

Pour améliorer et innover en continu vos charges de travail cloud, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs domaines de préparation opérationnelle.

Entretenir une culture de l'apprentissage

Encouragez les équipes à faire des tests, à partager leurs connaissances et à apprendre en continu. Adoptez une culture sans blâme, où les échecs sont considérés comme des opportunités de croissance et d'amélioration. Cette recommandation concerne le domaine d'intérêt de l'aptitude opérationnelle de la main-d'œuvre.

Lorsque vous favorisez une culture de l'apprentissage, les équipes peuvent tirer des leçons de leurs erreurs et itérer rapidement. Cette approche encourage les membres de l'équipe à prendre des risques, à tester de nouvelles idées et à repousser les limites de leur travail. Il crée également un environnement psychologiquement sûr dans lequel les individus se sentent à l'aise pour partager leurs échecs et en tirer des leçons. Le partage de cette manière permet de créer un environnement plus ouvert et collaboratif.

Pour faciliter le partage de connaissances et l'apprentissage continu, donnez aux équipes la possibilité de partager leurs connaissances et d'apprendre les unes des autres. Vous pouvez le faire en participant à des sessions de formation et des conférences formelles et informelles.

En favorisant une culture de l'expérimentation, du partage des connaissances et de l'apprentissage continu, vous pouvez créer un environnement dans lequel les équipes sont encouragées à prendre des risques, à innover et à se développer. Cet environnement peut améliorer la productivité et la résolution des problèmes, et rendre les employés plus engagés et motivés. De plus, en promouvant une culture non accusatoire, vous pouvez créer un espace sûr pour que les employés apprennent de leurs erreurs et contribuent aux connaissances collectives de l'équipe. Cette culture permet en fin de compte de disposer d'une main-d'œuvre plus résiliente et adaptable, mieux à même de relever les défis et de réussir à long terme.

Mener des rétrospectives régulières

Les rétrospectives permettent aux équipes de réfléchir à leurs expériences, d'identifier ce qui s'est bien passé et ce qui peut être amélioré. En menant des rétrospectives après des projets ou des incidents majeurs, les équipes peuvent tirer des leçons de leurs succès et de leurs échecs, et améliorer en continu leurs processus et leurs pratiques. Cette recommandation concerne les domaines de préparation opérationnelle suivants : processus et gouvernance.

Une façon efficace de structurer une rétrospective consiste à utiliser le modèle Start-Stop-Continue :

  • Commencer : lors de la phase Commencer de la rétrospective, les membres de l'équipe identifient de nouvelles pratiques, de nouveaux processus et de nouveaux comportements qui, selon eux, peuvent améliorer leur travail. Ils expliquent pourquoi les modifications sont nécessaires et comment les mettre en œuvre.
  • Arrêter : dans la phase Arrêter, les membres de l'équipe identifient et éliminent les pratiques, les processus et les comportements qui ne sont plus efficaces ou qui entravent la progression. Ils expliquent pourquoi ces modifications sont nécessaires et comment les mettre en œuvre.
  • Continuer : dans la phase Continuer, les membres de l'équipe identifient les pratiques, les processus et les comportements qui fonctionnent bien et doivent être poursuivis. Ils expliquent pourquoi ces éléments sont importants et comment les renforcer.

En utilisant un format structuré comme le modèle "Start-Stop-Continue", les équipes peuvent s'assurer que les rétrospectives sont productives et ciblées. Ce modèle permet de faciliter la discussion, d'identifier les principaux points à retenir et de définir des étapes concrètes pour les améliorations futures.

Se tenir informé des technologies cloud

Pour exploiter tout le potentiel des services Google Cloud , vous devez vous tenir au courant des dernières avancées, fonctionnalités et bonnes pratiques. Cette recommandation concerne le domaine d'intérêt de la préparation opérationnelle de la main-d'œuvre.

Participer à des conférences, des webinaires et des formations pertinents est un excellent moyen d'élargir vos connaissances. Ces événements vous permettent d'apprendre auprès d'experts Google Cloud , de comprendre les nouvelles fonctionnalités et d'échanger avec des pairs du secteur qui peuvent être confrontés à des défis similaires. En participant à ces sessions, vous pourrez découvrir comment utiliser efficacement les nouvelles fonctionnalités, optimiser vos opérations cloud et stimuler l'innovation au sein de votre organisation.

Pour vous assurer que les membres de votre équipe se tiennent au courant des technologies cloud, encouragez-les à obtenir des certifications et à suivre des formations. Google Cloudpropose une large gamme de certifications qui valident les compétences et les connaissances dans des domaines cloud spécifiques. L'obtention de ces certifications témoigne de votre engagement envers l'excellence et fournit une preuve concrète de votre maîtrise des technologies cloud. Les formations proposées par Google Cloud et nos partenaires approfondissent des thèmes spécifiques. Ils offrent une expérience directe et des compétences pratiques qui peuvent être immédiatement appliquées à des projets concrets. En investissant dans le développement professionnel de votre équipe, vous pouvez favoriser une culture d'apprentissage continu et vous assurer que chacun dispose des compétences nécessaires pour réussir dans le cloud.

Rechercher et intégrer activement les commentaires

Recueillez les commentaires des utilisateurs, des parties prenantes et des membres de l'équipe. Utilisez les commentaires pour identifier les opportunités d'améliorer vos solutions cloud. Cette recommandation concerne le domaine d'intérêt de l'aptitude opérationnelle de la main-d'œuvre.

Les commentaires que vous collectez peuvent vous aider à comprendre l'évolution des besoins, des problèmes et des attentes des utilisateurs de vos solutions. Ces commentaires constituent une source d'informations précieuse pour améliorer le produit et hiérarchiser les futures améliorations. Vous pouvez utiliser différents mécanismes pour recueillir des commentaires :

  • Les enquêtes sont un moyen efficace de collecter des données quantitatives auprès d'un grand nombre d'utilisateurs et de partenaires.
  • Les entretiens avec les utilisateurs permettent de recueillir des données qualitatives approfondies. Les interviews vous permettent de comprendre les difficultés et les expériences spécifiques de chaque utilisateur.
  • Les formulaires de commentaires placés dans les solutions cloud permettent aux utilisateurs de donner facilement et immédiatement leur avis sur leur expérience.
  • Des réunions régulières avec les membres de l'équipe peuvent faciliter la collecte de commentaires sur les aspects techniques et les difficultés d'implémentation.

Les commentaires que vous collectez à l'aide de ces mécanismes doivent être analysés et synthétisés pour identifier les thèmes et les tendances communs. Cette analyse peut vous aider à prioriser les futures améliorations en fonction de l'impact et de la faisabilité des améliorations suggérées. En répondant aux besoins et aux problèmes identifiés grâce aux commentaires, vous pouvez vous assurer que vos solutions cloud continuent de répondre aux exigences en constante évolution de vos utilisateurs et de vos partenaires.

Mesurer et suivre les progrès

Les indicateurs clés de performance (KPI) et les métriques sont essentiels pour suivre les progrès et mesurer l'efficacité de vos opérations cloud. Les KPI sont des mesures quantifiables qui reflètent les performances globales. Les métriques sont des points de données spécifiques qui contribuent au calcul des KPI. Examinez régulièrement les métriques et utilisez-les pour identifier les axes d'amélioration et mesurer vos progrès. Cela vous permet d'améliorer et d'optimiser en permanence votre environnement cloud. Cette recommandation concerne les domaines de préparation opérationnelle suivants : gouvernance et processus.

L'un des principaux avantages de l'utilisation de KPI et de métriques est qu'ils permettent à votre organisation d'adopter une approche axée sur les données pour les opérations cloud. En suivant et en analysant les données opérationnelles, vous pouvez prendre des décisions éclairées sur la façon d'améliorer l'environnement cloud. Cette approche axée sur les données vous aide à identifier les tendances, les modèles et les anomalies qui ne seraient peut-être pas visibles sans l'utilisation de métriques systématiques.

Pour collecter et analyser les données opérationnelles, vous pouvez utiliser des outils tels que Cloud Monitoring et BigQuery. Cloud Monitoring permet de surveiller en temps réel les ressources et services cloud. BigQuery vous permet de stocker et d'analyser les données que vous collectez grâce à la surveillance. En combinant ces outils, vous pouvez créer des tableaux de bord personnalisés pour visualiser les métriques et les tendances importantes.

Les tableaux de bord opérationnels peuvent fournir une vue centralisée des métriques les plus importantes, ce qui vous permet d'identifier rapidement les domaines qui nécessitent votre attention. Par exemple, un tableau de bord peut inclure des métriques telles que l'utilisation du processeur, de la mémoire, le trafic réseau et la latence pour une application ou un service spécifiques. En surveillant ces métriques, vous pouvez identifier rapidement les problèmes potentiels et prendre des mesures pour les résoudre.