了解如何有效排查问题,确保 Google Kubernetes Engine (GKE) 上的服务顺畅运行。无论您是 Kubernetes 新手还是经验丰富的用户,都将了解一种结构化方法来监控、诊断和解决常见问题。
利用以下工具和技巧培养 GKE 问题排查技能:
查看 Google Cloud 服务健康状况和突发事件,了解可能影响集群的持续可靠性突发事件。
通过在 Google Cloud 控制台中评估集群和工作负载健康状况,快速识别潜在问题。
通过使用
kubectl
命令行工具调查集群状态,查看节点和 Pod 等资源的实时状态。通过使用 Cloud Logging 进行历史分析,找出故障的根本原因。
通过使用 Cloud Monitoring 执行主动监控,在问题影响到用户之前解决问题。
通过分析错误、接收分步指导并自动调查问题,借助 Gemini Cloud Assist 加快诊断速度。
通过遵循问题排查场景示例来诊断和解决实际应用故障,了解这些工具如何协同工作。
了解核心概念
如果您刚开始接触 Kubernetes 和 GKE,在开始问题排查之前,务必要了解相关核心概念,例如集群架构以及 Pod 和节点之间的关系。如需了解详情,请参阅开始了解 GKE。
此外,了解您负责维护 GKE 的哪些部分以及 Google Cloud 负责维护哪些部分也有助于您快速入门。如需了解详情,请参阅 GKE 共担责任。
后续步骤
阅读查看 Google Cloud 服务健康状况和突发事件(本系列的下一页)。
如需有关解决特定问题的建议,请查看 GKE 的问题排查指南。
如果您在文档中找不到问题的解决方案,请参阅获取支持以获取进一步的帮助,包括以下主题的建议:
- 请与 Cloud Customer Care 联系,以提交支持请求。
- 通过在 StackOverflow 上提问并使用
google-kubernetes-engine
标记搜索类似问题,从社区获得支持。您还可以加入#kubernetes-engine
Slack 频道,以获得更多社区支持。 - 使用公开问题跟踪器提交 bug 或功能请求。