GKE 问题排查简介

Autopilot Standard

了解如何有效排查问题，确保 Google Kubernetes Engine (GKE) 上的服务顺畅运行。无论您是 Kubernetes 新手还是经验丰富的用户，都可以学习如何诊断和解决常见问题，包括应用错误（例如 CrashLoopBackOff）到集群范围的问题（例如节点未加入或 Pod 无法调度）。您将学习如何使用 kubectl 命令行工具、Cloud Logging 和 Cloud Monitoring 等关键工具来排查这些问题。

利用以下工具和技巧培养 GKE 问题排查技能：

查看 Google Cloud 服务健康状况和突发事件，了解可能影响集群的持续可靠性突发事件。
通过在 Google Cloud 控制台中评估集群和工作负载健康状况，快速识别潜在问题。
通过使用 kubectl 命令行工具调查集群状态，查看节点和 Pod 等资源的实时状态。
通过使用 Cloud Logging 进行历史分析，找出故障的根本原因。
通过使用 Cloud Monitoring 执行主动监控，在问题影响到用户之前解决问题。
通过分析错误、接收分步指导并自动调查问题，借助 Gemini Cloud Assist 加快诊断速度。
通过遵循问题排查场景示例来诊断和解决实际应用故障，了解这些工具如何协同工作。

了解核心概念

如果您刚开始接触 Kubernetes 和 GKE，在开始问题排查之前，务必要了解相关核心概念，例如集群架构以及 Pod 和节点之间的关系。如需了解详情，请参阅开始了解 GKE。

此外，了解您负责维护 GKE 的哪些部分以及 Google Cloud 负责维护哪些部分也有助于您快速入门。如需了解详情，请参阅 GKE 共担责任。

后续步骤

阅读查看 Google Cloud 服务健康状况和突发事件（本系列的下一页）。
如需有关解决特定问题的建议，请查看 GKE 的问题排查指南。
如果您在文档中找不到问题的解决方案，请参阅获取支持以获取进一步的帮助，包括以下主题的建议：
- 请与 Cloud Customer Care 联系，以提交支持请求。
- 通过在 StackOverflow 上提问并使用 google-kubernetes-engine 标记搜索类似问题，从社区获得支持。您还可以加入 #kubernetes-engine Slack 频道，以获得更多社区支持。
- 使用公开问题跟踪器提交 bug 或功能请求。