优化云资源

在高峰容量事件发生之前,管理和优化 Google Cloud 工作负载使用的资源。这涉及根据实际用量和需求合理调整资源规模、使用自动扩缩功能进行动态资源分配,以及查看架构和安全建议。Cloud MonitoringRecommender (Active Assist) 均可帮助您发现优化云资源的机会。通过使用这些工具,您可以深入了解资源使用情况,并在事件发生之前做出明智的决策。

查看 Google Cloud 最佳实践

通过遵循您所用 Google Cloud 产品的建议最佳实践,可以避免许多高峰容量事件问题。以下是一些最佳实践指南的示例:

常规
BigQuery
Cloud Storage
Compute Engine
Dataflow
Dataproc
Google Kubernetes Engine

查看可伸缩性

自动扩缩功能可确保您的基于云的应用拥有处理各种工作负载所需的资源,同时避免过度预配和不必要的费用。 Google Cloud 提供了多种产品专属的自动扩缩选项,包括:

  • Compute Engine 托管式实例组 (MIG) 是作为单个实体进行管理和扩缩的虚拟机组。借助 MIG,您可以定义自动扩缩政策,用于指定要在实例组中维护的虚拟机数量下限和上限,以及触发自动扩缩的条件。
  • Google Kubernetes Engine (GKE) 自动扩缩可动态调整集群资源,以满足应用的需求。它提供了一些工具,可优化资源利用率、确保应用性能并简化集群管理。
  • Cloud Run 提供内置的自动扩缩功能,可根据传入流量自动调整实例数量。

在事件发生之前,我们建议您手动扩容。虽然您可能已配置自动扩缩,但由于事件流量的速度,自动扩缩可能无法满足需求。因此,请提前预热资源,包括以下资源:

  • 虚拟机
  • 缓存(如果您想预加载)
  • 无服务器组件(用于防止冷启动)

查看 Active Assist 建议

Active Assist 是指Google Cloud 中用于生成建议和分析洞见的工具组合,可帮助您优化 Google Cloud 项目。如需了解详情,请参阅什么是 Active Assist

查看您的产品版本

确保您的所有云产品和服务都已更新为最新的稳定版。

查看提醒和信息中心

通过评估 Google Cloud Observability 工具和第三方解决方案为您提供的提醒和信息中心,主动发现并解决问题。

查看 Google Cloud Observability 指标、日志和跟踪记录,深入了解资源利用率、性能特征和资源的整体运行状况。监控与系统运行状况指标一致的重要指标,例如 CPU 利用率、内存用量、网络流量、磁盘 I/O 和应用响应时间。您还应考虑业务专属指标。通过跟踪这些指标,您可以发现潜在的瓶颈、性能问题和资源限制。此外,您还可以设置提醒,以便主动向相关团队通知潜在问题或异常情况。

对于提醒,请关注关键指标,设置适当的阈值,以最大限度地减少提醒疲劳,并确保及时响应重大问题。通过这种有针对性的方法,您可以主动维护工作负载的可靠性。如需了解详情,请参阅提醒概览

后续步骤