排查 GKE 问题


本页面列出了问题排查页面,其中介绍了您在使用 Google Kubernetes Engine (GKE) 时可能会遇到的常见问题。本页面适用于负责排查 GKE 配置问题的管理员和架构师、安全专家、网络专家或存储专家。如需详细了解 GKE 角色,请参阅常见的 GKE Enterprise 用户角色和任务

您可以使用本页面来诊断和解决在使用 GKE 基础设施的各个阶段遇到的问题:

您还可以通过本页面访问更通用的问题排查主题:

如需排查 GKE 网络问题,请参阅 GKE 网络文档中的排查 GKE 网络问题

集群设置

主题 说明
创建集群 解决创建集群时的问题。
Autopilot 集群 诊断和排查 GKE Autopilot 集群问题,包括集群创建、命名空间删除、扩缩和工作负载问题。
Kubectl 命令行工具 排查 GKE 中 kubectl 命令行工具的问题,包括身份验证、授权问题。本页面还包含有关如何排查 Konnectivity 代理问题的建议,以检查该代理是否导致 kubectl logsattachexecport-forward 命令停止响应。
Standard 节点池 排查 GKE Standard 节点池的问题,包括节点池创建、尽力而为的预配、损坏的实例元数据以及将工作负载迁移到新节点池的问题。
节点注册 排查将节点添加到 GKE Standard 集群时发生的问题,例如节点注册失败以及缺少成功注册节点的前提条件。
容器运行时 排查 GKE 中的容器运行时问题,包括 containerddockershim 以及私有注册表的问题。

存储

主题 说明
存储 排查存储问题,包括区域级永久性磁盘、磁盘性能和卷扩展的问题。

集群安全

主题 说明
Authentication 排查 GKE 中的身份验证问题,包括 RBAC、Workload Identity Federation for GKE 和 GKE 元数据服务器的问题。
服务账号 排查服务账号问题,包括恢复默认服务账号和启用 Compute Engine 默认服务账号。
应用层 Secret 排查配置应用层 Secret 加密时可能出现的问题,包括更新失败和错误,导致无法使用 Cloud KMS 密钥Cloud KMS 密钥版本被销毁

集群的根证书授权机构即将过期

主题 说明
根证书授权机构 (CA) 即将过期 如果集群的根证书授权机构 (CA) 即将过期,请了解如何执行凭证变换,以防止正常的集群操作中断。

工作负载

主题 说明
已部署的工作负载 排查在 GKE 集群中运行的工作负载的错误,包括 CrashLoopBackOffPodUnschedulable。请参阅 PodUnschedulable 部分,了解有关 MatchNodeSelectorDoes not have minimum availability 等错误的建议。
图片拉取 排查映像拉取问题。了解导致 ImagePullBackOffErrImagePull 等状态的原因,以及如何通过解决身份验证和网络连接等常见问题来解决这些状态。
OOM 事件 排查 Kubernetes 内存不足 (OOM) 事件问题。确定原因、区分事件类型,并针对容器级和节点级 OOM 终止应用有效的解决方案。
Arm 工作负载 排查 Arm 工作负载的问题,包括 Arm 节点上的 Pod 崩溃。
TPU 排查 TPU 问题,包括配额、节点自动预配、工作负载配置和调度的问题。
GPU 数量 排查 GPU 问题,包括 GPU 驱动程序安装、设备插件错误和容器映像的问题。

集群管理

主题 说明
升级 排查 GKE 集群升级的问题,例如控制平面升级后 kube-apiserver 健康状况不佳,或者升级后工作负载被逐出。
网络钩子 了解如何在使用准入 webhook 时排查集群控制平面问题并确保其稳定性。
命名空间卡在 Terminating 状态 通过识别并移除阻止删除的健康状况不佳组件,排查命名空间卡在 Terminating 状态的问题。

监控

主题 说明
系统指标 排查系统指标未显示在 Cloud Monitoring 中的问题。
监控信息中心 排查监控信息中心的问题,包括启用监控功能、缺少 Kubernetes 资源和权限的问题。
Logging 排查日志记录问题,包括启用日志记录功能、缺少日志和配额的问题。

4xx 错误

主题 说明
4xx 错误 排查使用 GKE 时可能遇到的一些 400、401、403 和 404 错误。本页面还包含有关如何排查账号缺少修改权限错误的信息。

已知问题

主题 说明
已知问题 发现并解决可能影响 GKE 使用的已知问题。

后续步骤