Résoudre les problèmes liés à GKE


Cette page répertorie les pages de dépannage pour les problèmes courants que vous pouvez rencontrer lorsque vous utilisez Google Kubernetes Engine (GKE). Cette page s'adresse aux administrateurs, aux architectes, aux spécialistes de la sécurité, aux spécialistes de la mise en réseau ou aux spécialistes du stockage qui résolvent les problèmes de configuration de GKE. Pour en savoir plus sur les rôles GKE, consultez Rôles utilisateur et tâches courantes de GKE Enterprise.

Si vous débutez dans le dépannage dans GKE ou si vous souhaitez obtenir une présentation générale des outils et techniques de base, commencez par Introduction au dépannage.

Pour diagnostiquer et résoudre les problèmes que vous rencontrez à différentes étapes de l'utilisation de votre infrastructure GKE, consultez les sections suivantes :

Cette page donne également accès à des sujets de dépannage plus généraux :

Pour résoudre les problèmes de mise en réseau GKE, consultez Résoudre les problèmes de mise en réseau GKE dans la documentation sur la mise en réseau GKE.

Présentation du dépannage

Thème Description
Présentation du dépannage de GKE Pour commencer à résoudre les problèmes liés à GKE, apprenez à utiliser les outils de base pour diagnostiquer et résoudre vos problèmes.

Configurer le cluster

Thème Description
Création de clusters Résolvez les problèmes de création de clusters.
Clusters Autopilot Diagnostiquer et résoudre les problèmes liés aux clusters GKE Autopilot, y compris la création de clusters, la suppression d'espaces de noms, le scaling et les problèmes liés aux charges de travail.
Outil de ligne de commande Kubectl Résolvez les problèmes liés à l'outil de ligne de commande kubectl dans GKE, y compris les problèmes d'authentification et d'autorisation. Cette page inclut également des conseils sur la façon de résoudre les problèmes liés au proxy Konnectivity pour vérifier s'il est à l'origine de l'arrêt de la réponse des commandes kubectl logs, attach, exec ou port-forward.
Pools de nœuds standards Résoudre les problèmes liés aux pools de nœuds GKE Standard, y compris les problèmes de création de pools de nœuds, de provisionnement au mieux, de métadonnées d'instance corrompues et de migration des charges de travail vers de nouveaux pools de nœuds.
Enregistrement des nœuds Résolvez les problèmes qui surviennent lorsque vous ajoutez des nœuds à votre cluster GKE Standard, comme les échecs d'enregistrement des nœuds et les conditions préalables manquantes pour l'enregistrement réussi des nœuds.
Environnement d'exécution du conteneur Résolvez les problèmes liés aux environnements d'exécution de conteneurs dans GKE, y compris les problèmes liés à containerd et dockershim, ainsi qu'aux registres privés.

Stockage

Thème Description
Stockage Résolvez les problèmes de stockage, y compris ceux liés aux disques persistants régionaux, aux performances des disques et à l'expansion des volumes.

Sécurité du cluster

Thème Description
Authentification Résolvez les problèmes d'authentification dans GKE, y compris ceux liés au RBAC, à la fédération d'identité de charge de travail pour GKE et au serveur de métadonnées GKE.
Comptes de service Résolvez les problèmes liés aux comptes de service, y compris la restauration du compte de service par défaut et l'activation du compte de service Compute Engine par défaut.
Secrets au niveau de la couche application Résolvez les problèmes qui peuvent survenir lors de la configuration du chiffrement des secrets au niveau de l'application, y compris les échecs de mise à jour et les erreurs lorsque vous ne pouvez pas utiliser de clé Cloud KMS ou lorsque la version de clé Cloud KMS a été détruite.

L'autorité de certification racine du cluster arrive bientôt à expiration

Thème Description
Expiration de l'autorité de certification (CA) racine Si l'autorité de certification (AC) racine de votre cluster arrive bientôt à expiration, découvrez comment effectuer une rotation des identifiants pour éviter toute interruption des opérations normales sur les clusters.

Charges de travail

Thème Description
Charges de travail déployées Résolvez les erreurs liées aux charges de travail exécutées dans un cluster GKE, y compris CrashLoopBackOff et PodUnschedulable. Consultez la section "PodUnschedulable" pour obtenir des conseils sur les erreurs telles que MatchNodeSelector et Does not have minimum availability.
Récupération d'images Résolvez les problèmes d'extraction d'images. Découvrez les causes des états ImagePullBackOff et ErrImagePull, et comment les résoudre en corrigeant les problèmes courants tels que l'authentification et la connectivité réseau.
Événements OOM Résolvez les problèmes liés aux événements Kubernetes de mémoire insuffisante (OOM). Identifier les causes, distinguer les types d'événements et appliquer des solutions efficaces pour les erreurs OOM au niveau du conteneur et du nœud.
Charges de travail Arm Résolvez les problèmes liés aux charges de travail Arm, y compris le plantage des pods sur les nœuds Arm.
TPU Résolvez les problèmes liés aux TPU, y compris ceux liés au quota, au provisionnement automatique des nœuds, à la configuration des charges de travail et à la planification.
GPU Résolvez les problèmes liés aux GPU, y compris ceux liés à l'installation des pilotes de GPU, aux erreurs de plug-in d'appareil et aux images de conteneur.

Gestion des clusters

Thème Description
Licences Résolvez les problèmes liés aux mises à niveau des clusters GKE, comme un kube-apiserver qui n'est pas sain après une mise à niveau du plan de contrôle ou des charges de travail qui sont évincées après une mise à niveau.
Webhook Découvrez comment résoudre les problèmes et assurer la stabilité du plan de contrôle de votre cluster lorsque vous utilisez des webhooks d'admission.
Espace de noms bloqué à l'état Terminating Résolvez les problèmes liés aux espaces de noms bloqués à l'état Terminating en identifiant et en supprimant les composants non opérationnels qui bloquent la suppression.

Surveillance

Thème Description
Métriques système Résolvez les problèmes liés aux métriques système qui n'apparaissent pas dans Cloud Monitoring.
Tableaux de bord Monitoring Résolvez les problèmes liés aux tableaux de bord de surveillance, y compris ceux liés à l'activation de la surveillance, aux ressources Kubernetes manquantes et aux autorisations.
Logging Résolvez les problèmes de journalisation, y compris ceux liés à l'activation de la journalisation, aux journaux manquants et aux quotas.

Erreurs 4xx

Thème Description
Erreurs 4xx Résolvez certains des problèmes 400, 401, 403 et 404 que vous pouvez rencontrer lorsque vous utilisez GKE. Cette page inclut également des informations sur la résolution des problèmes d'autorisation de modification de compte.

Problèmes connus

Thème Description
Problèmes connus Identifiez et résolvez les problèmes connus qui peuvent affecter votre utilisation de GKE.

Étapes suivantes