Dataproc 本地 SSD

如需作为启动磁盘的补充 本地固态硬盘(本地 SSD) 主节点、主要工作器节点和辅助工作器节点。 为集群提供本地 SSD 后,HDFS 和暂存数据(如 Shuffle 输出)将使用本地 SSD 而不是永久性启动磁盘。

  • 与永久性磁盘相比,本地 SSD 的读写速度更快 (请参阅本地 SSD 性能)。
  • 每个本地固态硬盘的 375GB 大小是固定的,但您可以将多个本地固态硬盘挂接到 增加 SSD 存储空间(请参阅 本地 SSD 简介
  • 每个本地 SSD 都会装载到 Dataproc 集群节点中的 /mnt/<id>
  • 本地 SSD 使用 ext4 作为默认文件系统

使用本地 SSD

gcloud 命令

gcloud dataproc clusters create 命令与 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 标志结合使用,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。 Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。使用 gcloud gclid clusters create 命令替换为 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 个标志 为主实例、主实例和辅助实例指定本地 SSD 接口 工作器节点数量。

示例

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。 Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。将 localSsdInterface 字段(位于 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfigcluster.create 指定“SCSI”的 API 请求或“NVME”用于将本地 SSD 连接到集群主服务器的接口; 主要工作器节点和辅助工作器节点。

控制台

创建集群并将本地 SSD 挂接到主实例。 主工作器节点和辅助工作器节点 Dataproc 创建集群页面 Google Cloud 控制台中