使用 Backup for GKE 保护集群


您可以使用 Google Kubernetes Engine (GKE) 集群来运行任务关键型工作负载,这些工作负载必须能够灵活应对多种类型的中断,包括基础设施故障、用户错误和网络攻击。

借助 Backup for GKE,您可以:

  • 备份配置和永久性卷数据,使工作负载具备中断恢复能力。
  • 在发生中断时,通过备份恢复工作负载。
  • 实现业务关键型恢复点目标 (RPO) 和恢复时间目标 (RTO)。
  • 通过克隆生产配置和数据来简化日常运营,以用于沙盒测试以及测试和开发环境创建等应用场景。

GKE 会监控集群,并使用 Recommender 服务来提供有关如何优化平台使用的指导。GKE 会通过启用 Backup for GKE 检测出让工作负载具备中断复原能力的机会。

如需详细了解如何管理分析洞见和 Recommender 建议,请参阅利用分析洞见和建议优化 GKE 使用

确定未受 Backup for GKE 保护的集群

GKE 会生成分析洞见,以确定组织中未受备份保护的集群。如需获取这些分析洞见,请按照相关说明将 Google Cloud 控制台、Google Cloud CLI 或 Recommender API 与 CLUSTER_BACKUP_PLAN_NOT_CREATED 子类型结合使用来查看分析洞见和建议

GKE 如何确定没有备份方案的集群

GKE 根据以下条件确定您应该创建备份方案来保护集群:

  • 集群不是临时集群,这意味着 GKE 集群满足以下所有条件:

    • 集群已存在至少七天。
    • 集群位于以下可用区或区域之一:

      • 可用区us-central1-aus-central1-bus-central1-cus-central1-fus-east1-bus-east1-cus-east1-d
      • 区域us-east1
    • 集群正在运行。

    • 集群不是 Alpha 版集群

  • 集群没有关联的 Backup for GKE 备份方案。

评估您的集群是否需要使用 Backup for GKE 进行数据保护

请考虑以下条件,以评估您是否应使用 Backup for GKE 备份集群:

  • 运行有状态应用:有状态应用会保留状态,但状态容易丢失和损坏。对于可用区级故障、区域级故障、工作负载故障或用户引发的故障所导致的中断,备份是其最佳防范方式。
  • 快速应用回滚非常重要:在出现故障、升级失败或损坏时,将有状态应用和无状态应用恢复到已知的健康状态。与重新部署应用相比,通过备份恢复通常可以缩短恢复时间。借助备份,您可以存储多个时间点的备份,从而提高灵活性。
  • 需要防范网络攻击:创建不可变的加密备份,并锁定这些备份,使其在最短时间内无法删除,从而为应对网络攻击威胁的影响做好准备。

有状态工作负载和无状态工作负载都可以从备份中受益。如果您的集群符合以下一项或多项条件,请考虑配置备份。

如何处理建议

如果您已确定应为自己的集群启用 Backup for GKE 并创建备份方案,请按照以下说明操作:

  1. 启用 Backup for GKE API
  2. 为集群启用 Backup for GKE
  3. 创建备份方案

后续步骤