集群缓存

启用 Dataproc 集群缓存后,集群会缓存 Spark 作业经常访问的 Cloud Storage 数据。

优势

  • 提高性能:缓存可以减少从存储空间检索数据所花的时间,从而提高作业性能。
  • 降低存储费用:由于热数据会缓存在本地磁盘上,因此系统会减少对存储空间进行 API 调用以检索数据。

限制和要求

启用集群缓存

您可以在使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 创建 Dataproc 集群时启用集群缓存。

Google Cloud 控制台

  • 打开 Google Cloud 控制台中的 Dataproc 在 Compute Engine 上创建集群页面。
  • 选中设置集群面板。在 Spark 性能增强部分中,选择 Enable Google Cloud Storage caching(启用 Google Cloud Storage 缓存)。
  • 在集群创建面板中确认并指定集群详细信息后,点击创建

gcloud CLI

在终端窗口或 Cloud Shell 中本地运行 gcloud dataproc clusters create 命令,并使用 dataproc:dataproc.cluster.caching.enabled=true 集群属性

示例:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

SoftwareConfig.properties 设置为包含 "dataproc:dataproc.cluster.caching.enabled": "true" 集群属性(作为 clusters.create 请求的一部分)。